聯和科創今日宣布在語音增強領域取得重大突破,於國際頂尖會議「IEEE 語音語言技術研討會( SLT 2024)」上發表最新研究論文,該論文由聯和科創 AI 部門主管李鴻欣博士(Dr. Hung-Shin Lee)與國立台灣師範大學陳柏琳博士(Dr. Berlin Chen)共同撰寫 ,提出了一種跨域語音增強(Cross-domain speech enhancement)的新方法,能顯著提升語音在挑戰性聲學環境中的清晰度及可理解性。
傳統的語音增強技術常面臨在不可預測的現實聲學環境中表現不穩定的問題,而聯和科創團隊利用生成對抗網絡(GAN)和噪聲提取等前沿 AI 技術,成功開發出一個能在先前未可見不可預測的聲學環境中有效抑制噪聲並增強語音的模型。
這篇題為《利用動態隨機擾動實現域自適應語音增強的有效噪聲感知資料模擬》("Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation")的論文,闡述了如何運用新穎的資料模擬方法,克服在未知目標域中噪聲和背景信息有限的挑戰。透過採用噪聲編碼器和動態隨機擾動,能有效地模擬多樣的噪聲條件,使該模型能很好地適應未知的聲學環境。
在行業標準的VoiceBank-DEMAND 基準資料集上進行的嚴格測試亦證明了該方法的優越性,在多個客觀和主觀指標上均優於現有的最新語音增強技術。這一成功彰顯了該技術在依賴清晰且準確的語音通信的應用中具有顛覆性的潛力。
IEEE(Institute of Electrical and Electronics Engineers,電氣電子工程師學會)是一個全球性的專業組織,專注於電氣工程、電子工程、計算機科學以及相關技術的發展。它是全球最大的技術專業組織之一,對於科技領域的創新和標準化具有重要影響。
「這項突破標誌著我們在提供無與倫比的AI語音增強功能的使命中向前邁出了重要一步,」李鴻欣博士表示,「通過有效縮小訓練和實際部署之間的差距,我們的方法為語音助理、視訊會議系統、助聽器及輔助技術等應用領域的顯著性能提升開啟了大門。」未來聯和科創計劃在各種挑戰性環境和資料集上進行廣泛測試,進一步驗證和完善該方法,聯和科創對研發持續投入的承諾,將確保公司在提供有影響力的 AI 驅動解決方案方面保持領先並賦能各行業用戶。
聯和科創於國際頂尖會議「IEEE 語音語言技術研討會( SLT 2024)」發表創新研究成果 《利用動態隨機擾動實現域自適應語音增強的有效噪音感知資料模擬》
|