找回密碼註冊
作者: Kimi
查看: 3130
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    SAMSUNG T7 Shield 移動固態硬碟

    [*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

    GEX PRO 850W玩家開箱體驗分享活動

    卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

    體驗極速WiFi 7!MSI Roamii BE Lite Mesh

    第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

    極致效能 為遊戲而生 990 PRO SSD 玩家體驗

    [*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

    打印 上一主題 下一主題

    [業界新聞] 現在聆聽這個:世界上最靈活的聲音機器首次亮相

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    Kimi 發表於 2024-11-27 15:24:26 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式


    NVIDIA 的全新生成式 AI 模型使用文字和音訊輸入,可以創造出音樂、語音和聲音的任意組合


    【新聞照片】現在聆聽這個:世界上最靈活的聲音機器首次亮相.jpg


    一組生成式人工智慧(AI)研究人員打造了一把聲音的瑞士刀,讓使用者只要使用文字就能控制音訊輸出。
    雖然某些 AI 模型可以用於作曲或修改聲音,但都沒有像這款新產品在使用上如此靈活。

    這款產品被稱作 Fugatto,為Foundational Generative Audio Transformer Opus 1 的縮寫,可以使用文字與音訊檔案的任何組合,產生或轉換提示描述的音樂、語音與聲音任意組合。
    例如,它可以根據文字提示創作音樂片段、從現有歌曲中增減樂器、改變聲音的口音或情感,甚至讓人們發出從未聽過的聲音。


    曾多次拿下白金唱片的製作人兼詞曲創作者 Ido Zmishlany 表示:「這個技術太瘋狂了。聲音是我的靈感來源。是它打動我創作音樂。我可以在錄音室裡即時創作出全新聲音,這實在讓人感到不可思議。」Zmishlany 同時也是 One Take Audio 的共同創辦人,而 One Take Audio 為針對尖端新創公司成立的 NVIDIA Inception 計畫一員。



    深刻理解聲音
    NVIDIA 應用音訊研究部門經理 Rafael Valle 指出:「我們希望創造一個能夠像人類一樣理解和生成聲音的模型。」Valle 是 Fugatto 數十位幕後推手之一,同時也是一位管弦樂指揮家與作曲家。

    Fugatto 支援多種音訊產生與轉換任務,是第一個能展現突現性質(emergent property)的基礎生成式 AI 模型,也就是由各種經過訓練的能力進行互動所產生的能力,以及結合自由形式指令的能力。

    Valle 表示:「Fugatto 是我們邁向未來的第一步,未來,音訊合成與轉換的無監督多任務學習將從資料與模型規模中浮現。」



    使用案例代表性清單
    比如說音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想,嘗試各種風格、聲音和樂器。他們也能夠加入效果並提升現有曲目的整體音訊品質。

    Zmishlany 表示:「音樂史也是一部科技史。電吉他為這個世界帶來了搖滾樂。當採樣器出現時,嘻哈音樂便誕生了。借助 AI,我們正在譜寫音樂的下一個篇章。我們有了一種新的樂器、一種製作音樂的新工具,這實在是太讓人期待了。」

    廣告公司可以運用 Fugatto 快速針對多個地區或情境的現有廣告內容,對配音套用不同的口音和情感。
    語言學習工具可以變得個人化,可使用說話者選擇的任何聲音。想像一下,線上課程將以任何一個家人或朋友的聲音所講授。

    電玩遊戲開發人員可以使用這個模型來修改遊戲裡預先錄好的資產,以配合玩家在玩遊戲時不斷變化的動作。又或是他們可以根據文字指令及可選用的音訊輸入方式,即時動態創造出新的資產。



    發出歡樂的聲音
    Valle 表示:「酪梨椅(avocado chair)是我們特別引以為傲的模型功能之一。」Valle 這裡指的是一種由生成式 AI 模型所創造出的新穎視覺成像技術。

    像是 Fugatto 可以做出喇叭或是薩克斯風的聲音。不管使用者描述什麼,模型就能創造出什麼。
    只要經過微調和少量的歌唱資料,研究人員發現它可以處理未經過預先訓練的任務,例如從文字提示產生高品質的歌聲。



    使用者可以進行藝術性控制
    Fugatto 的新奇之處還在於它的幾項功能。

    模型在推論的時候,會使用一種稱為 ComposableART 的技術,將只在訓練期間單獨出現的指令組合起來。舉例來說,提示的組合可以要求用法國口音說出帶有傷感情懷的文字。
    此模型在指令之間進行插值的能力,讓使用者可以極細微地控制文字指令,在這個例子中即是可以控制口音的輕重或悲傷的程度。


    設計該模型這些方面的 AI 研究員 Rohan Badlani 表示:「我想讓使用者以主觀或藝術的方式結合屬性,選擇他們對每個屬性的重視程度。」

    擁有史丹佛大學電腦科學碩士學位且主攻 AI 的 Badlani 指出:「在我的測試中,結果時常令人驚訝,讓我覺得自己有點像是個藝術家,儘管我是一名電腦科學家。」


    這個模型還能產生隨時間變化的聲音,Badlani 將這項功能稱為時間插值(temporal interpolation)。譬如它可以產生出暴風雨經過某個區域時的聲音,而漸強的雷聲則慢慢消失在遠方。它還能讓使用者精細控制聲景的演變方式。

    此外,與大多數模型只能重現所接觸過的訓練資料不同,Fugatto 能讓使用者創作出從未見過的聲景,例如雷雨伴隨著鳥鳴聲緩緩進入黎明。



    深入認識
    Fugatto 是一個基礎的生成式轉換器模型,建立在團隊先前在語音建模音訊聲碼處理音訊理解等領域的工作基礎上。
    完整版本使用 25 億個參數,在搭載 32 個 NVIDIA H100 Tensor 核心 GPUNVIDIA DGX 系統上進行訓練。

    Fugatto 的開發團隊由來自印度、巴西、中國、約旦和韓國等全球各地的不同人士所組成。他們的通力合作使得 Fugatto 生成多種口音及語言的能力變得更加強大。

    其中最困難的部分是產生一個混合資料集,其中包含數百萬個用於訓練的音訊樣本。該團隊採用多方面的策略來產生資料和指令,顯著擴大模型可以執行的任務範圍,同時實現更加精確的執行表現,並在無需額外資料的情況下完成新的任務。他們還仔細研究現有的資料集,以揭示資料之間新的關係。整個工作歷時超過一年。

    Valle 記得有兩個時刻,團隊知道自己做出了一些成果。他表示:「第一次按照提示產生音樂時,突破了我們所有人的想像。」
    隨後,團隊示範 Fugatto 回應一個提示,創造出狗隨著節拍吠叫的電子音樂。

    「當團隊哄堂大笑時,我的心真的暖暖的。」

    深入探索 Fugatto 的特色:https://youtu.be/qj1Sp8He6e4





    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2024-12-22 23:12 , Processed in 0.134604 second(s), 67 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表