科技部今天宣布「AI語音數據資料集」上線,首批共開放400小時高品質語音資料集,並開放國內企業、學術研究單位可免費取得授權,以應用於AI相關技術研發。
人工智慧(Artificial Intelligence, AI)是近來資訊產業非常熱門的話題,然而AI並不是新名詞,不過在硬體、軟體與演算法等的進步之下,目前已經有許多新應用,也成了軟、硬體界的新標的,甚至成了國家未來的發展關鍵。為此科技部推展AI不遺餘力,像今年舉辦的科技大擂台「與AI對話」競賽,便是挑戰AI在語意理解與語音對話,期望能夠加速開發中文語音對話的核心技術。
科技部政務次長許有進
為了讓更多的企業或學術研究構可以加速語音AI的發展,科技部特別推出「AI語音數據資料集」上線,首批開放400小時「科技大擂台 與AI對話」競賽所使用的語音試題資料中,除了自行錄製的資料外,更結合內政部的警政署警察廣播電臺及教育部的國立教育廣播電臺提供相關語音資料,並由科技部指導、國家實驗研究院科技政策研究與資訊中心(STPI)拓建加值,成為高品質的數據集(Dataset)。此數據集公開上線後,我國企業、學術界可免費取得授權,用於AI相關技術研發,提升競爭力。
AI的訓練中,最重要的就是正確的資料,利用科技大擂台比賽,科技部便建立AI語音數據資料庫,並邀請臺北科技大學的廖元甫副教授協助語音資料的標註,由科技部提供方便取得的資料,加速AI的訓練與精進。
Google臺灣董事總經理簡立峰分享自然語言處理與AI未來趨勢
本次釋出約 400小時的「AI語音數據資料集」,可以大幅縮短發展語音過程中所需的資料標註人力和時間,降低相關技術的發展門檻。資料集放在國家實驗研究院高速網路與計算中心資料集平台(NCHC DATA MARKET)https://scidm.nchc.org.tw/dataset/grandchallenge)中,期望藉此吸引更多企業、學研機構齊力投入,共同推動我國語音AI技術躍進,協助台灣企業進行數位轉型。
|