Mate發布Voicebox AI模型:僅需2秒片段即可學會語音細節
近日Meta發布了Voicebox AI模型,它在音效模擬方面有著顯著優勢。據悉Voicebox只需要一段2秒鐘的音效樣本,即可準確辨別出音效細節、音色,並採用文字結果轉換為語音輸出。同時它還可以採用語音片段的前後內容,自動補齊中間缺失的內容。根據Meta的介紹Voicebox能夠為AI助手,或是未來元宇宙的NPC提供自然且真實的語音效果,大大提升用戶使用時的沉浸感。同時它也能夠為聲帶受損的人群提供協助,幫助TA們重新發聲。
值得一提的是Meta目前已經意識到了Voicebox被應用在造假領域時,存在的潛在危害,因此他們正在尋找一種區分真實語音和Voicebox生成語音的方法。在找到解決方法前Meta將不會向公眾公開Voicebox AI模型,以避免不必要的危害。
消息來源
頁:
[1]