sxs112.tw 發表於 2024-4-2 20:55:43

蘋果開發出新款AI:可看懂螢幕內容並語音回覆

根據媒體報導蘋果近日宣布成功研發出一款前端的人工智慧系統-ReALM(Reference Resolution As Language Modeling,即基於語言建模的參考解析)。

據悉該系統具備卓越能力,能夠精準解析螢幕上模糊的內容,同時深入理解相關對話及背景環境,從而為用戶提供更為自然流暢的語音助理互動體驗。ReALM系統透過運用大語言模型技術,巧妙地將辨識螢幕視覺元素這項複雜任務轉化為純語言處理問題。這項創新轉換使得ReALM在性能上相較於傳統技術實現了質的飛躍。

值得一提的是ReALM的獨特之處在於其能夠重新建構螢幕內容。透過深入分析螢幕上的信息及其位置分佈,系統能夠產生精準的文字表示,這對於捕捉視覺佈局中的關鍵資訊至關重要。

研究人員進一步展示了將ReALM與專門針對內容指向優化的語言模型相結合的方法,結果顯示在執行相關任務時,ReALM的性能已超越業界翹楚GPT-4。

研究人員興奮地表示:我們對現有系統進行了深度優化和顯著改進,使其在處理各種類型的內容指向任務時均表現出卓越性能。即便是我們的最小模型,也實現了超過5%的性能提升;而大型模型的表現更是顯著超越GPT-4,令人矚目。

長期以來蘋果在創新領域中更多扮演跟隨者的角色,然而隨著人工智慧技術的快速發展,市場格局正發生深刻變革。如今蘋果正積極迎接挑戰,並努力在人工智慧領域佔有一席之地。

此外備受矚目的全球開發者大會即將在6月盛大舉行。屆時蘋果預計將推出一系列創新成果,包括全新大語言模型框架、Apple GPT聊天機器人及其生態系統中的其他AI功能。

消息來源
頁: [1]
查看完整版本: 蘋果開發出新款AI:可看懂螢幕內容並語音回覆