一組生成式人工智慧(AI)研究人員打造了一把聲音的瑞士刀,讓使用者只要使用文字就能控制音訊輸出。
雖然某些 AI 模型可以用於作曲或修改聲音,但都沒有像這款新產品在使用上如此靈活。
這款產品被稱作 Fugatto,為Foundational Generative Audio Transformer Opus 1 的縮寫,可以使用文字與音訊檔案的任何組合,產生或轉換提示描述的音樂、語音與聲音任意組合。
例如,它可以根據文字提示創作音樂片段、從現有歌曲中增減樂器、改變聲音的口音或情感,甚至讓人們發出從未聽過的聲音。
曾多次拿下白金唱片的製作人兼詞曲創作者 Ido Zmishlany 表示:「這個技術太瘋狂了。聲音是我的靈感來源。是它打動我創作音樂。我可以在錄音室裡即時創作出全新聲音,這實在讓人感到不可思議。」Zmishlany 同時也是 One Take Audio 的共同創辦人,而 One Take Audio 為針對尖端新創公司成立的 NVIDIA Inception 計畫一員。
深刻理解聲音
NVIDIA 應用音訊研究部門經理 Rafael Valle 指出:「我們希望創造一個能夠像人類一樣理解和生成聲音的模型。」Valle 是 Fugatto 數十位幕後推手之一,同時也是一位管弦樂指揮家與作曲家。
Fugatto 支援多種音訊產生與轉換任務,是第一個能展現突現性質(emergent property)的基礎生成式 AI 模型,也就是由各種經過訓練的能力進行互動所產生的能力,以及結合自由形式指令的能力。
Valle 表示:「Fugatto 是我們邁向未來的第一步,未來,音訊合成與轉換的無監督多任務學習將從資料與模型規模中浮現。」