Google的下一個主要人工智慧模型已經到來,以對抗來自OpenAI 的新產品的夾擊。本週三Google 發布了Gemini 2.0 Flash,該公司稱其除文字外,還能原生生成影像和音效。 2.0 Flash還可以呼叫第三方應用程式和服務,使其能夠連接Google搜尋、執行程式碼等。
2.0 Flash的實驗版本將從今天開始透過Gemini API和Google的人工智慧開發者平台AI Studio和Vertex AI提供。 不過音效和影像生成功能僅針對早期訪問合作夥伴推出,並將於1月全面推出。Google表示在未來幾個月內,它將為Android Studio、Chrome DevTools、Firebase, Gemini Code Assist等產品帶來各種版本的2.0 Flash。
第一代Flash(1.5 Flash)只能產生文件,並不是為要求特別高的工作負載而設計的。 Google表示這種新模式更具通用性,部分原因在於它可以呼叫搜尋等工具並與外部API互動。
Google聲稱根據自己的測試,2.0 Flash在某些基準測試中的速度是該公司Gemini 1.5 Pro模型的兩倍,而且在編程和影像分析等方面有了顯著改進。 事實上該公司表示2.0 Flash憑藉其卓越的數學能力和事實性,取代1.5 Pro成為Gemini的旗艦模型。如前所述2.0 Flash可以產生並修改文字和影像。 模型還能擷取照片和影片以及錄音,以回答相關問題(例如他說了什麼?)
音效生成是2.0 Flash的另一個主要功能,多希將其描述為可操縱和可自訂。 例如該模型可以使用針對不同口音和語言優化的八種聲音之一來敘述文件。
Google表示將使用其SynthID技術對2.0 Flash產生的所有音效和影像進行浮水印處理。 在支援SynthID的軟體和平台上(即選定的Google產品),模型的輸出將被標記為合成。這是為了消除對濫用的擔憂。 事實上深度偽造是一種日益嚴重的威脅。 根據身分驗證服務公司Sumsub的數據,從2023年到2024年,全球偵測到的深度偽造增加了4倍。
2.0 Flash的正式版本將於1月發布。 但同時Google將發布一個應用程式介面(API)--多模態即時應用程式介面(Multimodal Live API),以幫助開發人員打造有即時音效和視訊串流功能的應用程式。
Google表示透過使用多模態即時API,開發人員可以打造即時、多模態的應用,並透過相機或螢幕輸入音效和影片。 此API支援整合各種工具來完成任務,並且可以處理自然對話模式,例如中斷,這與OpenAI 的Realtime API大致一致。
多模態即時API已於今天上午全面推出。
消息來源 |