文章標籤：

蘋果

文章分享：

收藏0 分享

創作遊戲全都要！AMD Ryzen 9950X3D 測試報告 / 效能不減溫度更低

「打遊戲的絕佳良伴」美光 Micron Crucial P310 1TB 開箱實測

君主Montech HyperFlow Silent一體式水冷散熱器-240mm與360mm主流尺寸，靜冷壓制，無光害首選

「工業藝術品！小機殼不想錯過的愛卡～」NVIDIA GeForce RTX 5080 Founders Edition 創始版自費開箱

+ MORE活動推薦：

: NP5 玩家開箱體驗分享活動
[*]逆重力熱管設計 [*]卓越散熱解決方案 [*]精緻小巧，完整RAM空間 ...

: ROG電能狂潮電源供應器開箱體驗活動
ROG Thor III 1000W 白金牌氮化鎵 GaN MOSFET / 智慧穩壓器 / A ...

: Micron Crucial P310 1TB (Gen4 2280 M.2)
迎擊而上，跳脫限制。讓效能強大的 Crucial P310 NVMe SSD 為您贏得 ...

: FIT V DDR5 電競/超頻記憶體玩家開箱體驗
FIT V DDR5 電競/超頻記憶體最 FIT 專業工作者的效能首選 [*]靈巧俐 ...

[蘋果產品] 蘋果推出300億參數多模態AI大模型MM1.5：具備影像辨識、自然語言推理能力

[複製鏈接]| 回復

電梯直達

1^#

Martin 發表於 2024-10-14 13:11:03 | 只看該作者 |只看大圖回帖獎勵

|倒序瀏覽 |閱讀模式

近日，蘋果公司推出了300億參數的多模態AI大模型MM1.5，該版本是在前代MM1的架構基礎上發展而來的。

模型繼續遵循資料驅動的訓練原則，著重探究在不同訓練週期中混合各類資料對模型效能產生的影響，相關模型文件已在Hugging Face上發布。

MM1.5提供了從10億到300億的多種參數規模，擁有影像辨識和自然語言推理能力。

在新版本中，蘋果公司的研發人員改進了資料混合策略，大大增強了模型在多文本圖像理解、視覺引用與定位以及多圖像推理等方面的能力。

參考論文可知，團隊在MM1.5的持續預訓練階段引入了高品質的OCR資料和合成圖像描述，這顯著提高了模型對包含大量文字的圖像的理解程度。

此外，研究人員在監督式微調階段深入分析了不同資料類型對模型表現的作用，優化了視覺指令微調資料的混合方式，使得即便是小規模的模型（如10億、30億參數版本）也能有出色的發揮，實現了更高的效率。

值得一提的是，蘋果這次也推出了專門用於視訊理解的MM1.5-Video模型和專門處理行動裝置使用者介面（UI）理解的MM1.5-UI模型。

其中，MM1.5-UI模型未來有望成為iOS背後的「蘋果牌」AI，能夠處理各種視覺引用與定位任務，還能總結螢幕上的功能，或透過與用戶的對話進行互動。

儘管MM1.5模型在多項基準測試中表現優異，但蘋果團隊仍計劃透過進一步融合文字、圖像和使用者互動數據，並設計更複雜的架構，來提升模型對行動裝置UI的理解能力，從而讓「蘋果牌」AI更強大。