蘋果開發出新款AI：可看懂螢幕內容並語音回覆

sxs112.tw · 發表於 2024-4-2 20:55:43

根據媒體報導蘋果近日宣布成功研發出一款前端的人工智慧系統－ReALM（Reference Resolution As Language Modeling，即基於語言建模的參考解析）。

據悉該系統具備卓越能力，能夠精準解析螢幕上模糊的內容，同時深入理解相關對話及背景環境，從而為用戶提供更為自然流暢的語音助理互動體驗。ReALM系統透過運用大語言模型技術，巧妙地將辨識螢幕視覺元素這項複雜任務轉化為純語言處理問題。這項創新轉換使得ReALM在性能上相較於傳統技術實現了質的飛躍。

值得一提的是ReALM的獨特之處在於其能夠重新建構螢幕內容。透過深入分析螢幕上的信息及其位置分佈，系統能夠產生精準的文字表示，這對於捕捉視覺佈局中的關鍵資訊至關重要。

研究人員進一步展示了將ReALM與專門針對內容指向優化的語言模型相結合的方法，結果顯示在執行相關任務時，ReALM的性能已超越業界翹楚GPT-4。

研究人員興奮地表示：我們對現有系統進行了深度優化和顯著改進，使其在處理各種類型的內容指向任務時均表現出卓越性能。即便是我們的最小模型，也實現了超過5%的性能提升；而大型模型的表現更是顯著超越GPT-4，令人矚目。

長期以來蘋果在創新領域中更多扮演跟隨者的角色，然而隨著人工智慧技術的快速發展，市場格局正發生深刻變革。如今蘋果正積極迎接挑戰，並努力在人工智慧領域佔有一席之地。

此外備受矚目的全球開發者大會即將在6月盛大舉行。屆時蘋果預計將推出一系列創新成果，包括全新大語言模型框架、Apple GPT聊天機器人及其生態系統中的其他AI功能。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

華碩極速WiFi 7 寫文競走開始！-- 得獎公

Ducky One X 玩家開箱體驗分享活動

UNI FAN TL Wireless LCD 120 ARGB 玩家開

FSP MP7 ARGB 玩家開箱體驗分享活動

[軟體遊戲] 蘋果開發出新款AI：可看懂螢幕內容並語音回覆