Intel宣布針對Meta最新的Llama 3 GenAI工作負載對其Xeon、Core Ultra、Arc和Gaudi產品系列進行驗證和最佳化。
新聞稿:今天Meta推出了 下一代大型語言模型 (LLM) Meta Llama 3 。自發布之日起,Intel已針對首批Llama 3 8B和70B型號驗證了其AI產品組合,涵蓋Gaudi 加速器、Xeon處理器、Core Ultra處理器和Arc GPU。
重要性: 作為讓人工智慧無所不在的使命的一部分,Intel投資於軟體和人工智慧生態系統,以確保其產品為動態人工智慧領域的最新創新做好準備。在資料中心,擁有高級矩陣擴展 (AMX) 加速功能的Gaudi和Xeon處理器為客戶提供了滿足動態和廣泛需求的選擇。
Intel Core Ultra處理器和Arc顯示卡產品提供本地開發工具和跨數百萬設備的部署,並支援全面的軟體框架和工具,包括用於本地研發的PyTorch和Intel Extension for PyTorch以及用於模型開發和推理的OpenVINO工具包。
關於在Intel上運行的Llama 3:Intel對Llama 3 8B和70B型號的初步測試和性能結果使用開源軟體,包括PyTorch、DeepSpeed、Optimum Habana庫和Intel Extension for PyTorch以提供最新的軟體優化。
Intel Gaudi 2加速器在Llama 2型號上優化了性能(7B、13B和70B參數),現在對新的Llama 3型號進行了初步性能測試。隨著Gaudi軟體的成熟,Intel可以輕鬆運行新的Llama 3模型並產生用於推理和微調的結果。最近發布的Gaudi 3加速器也支援Llama 3 。
Intel Xeon處理器可滿足要求嚴格的端到端人工智慧工作負載,Intel投資優化LLM結果以減少延遲。與第四代Xeon處理器相比,有高效能核心(代號Granite Rapids)的Xeon 6處理器的Llama 3 8B推理延遲提高了2倍,並且能夠運行更大的語言模型(如Llama 3 70B),每個產生的令牌的時間低於100ms。
Intel Core Ultra和Arc Graphics為Llama 3提供了令人印象深刻的效能。此外Arc A770 GPU有Xe Matrix eXtensions (XMX) AI加速和16GB專用記憶體,可為 LLM工作負載提供卓越的性能。
Intel可擴充處理器
Intel一直在不斷優化 Xeon平台的LLM推理。例如與Llama 2相比,PyTorch和Intel Extension for PyTorch中的軟體改進已發展到可將延遲減少5倍。此最佳化利用分頁注意力和張量並行來最大化可用的計算利用率和記憶體頻寬。圖1顯示了Meta Llama 3 8B推理在採用第四代Xeon可擴展處理器的AWS m7i.metal-48x實例上的效能。
我們在有效能核心(以前代號為Granite Rapids)的Xeon 6處理器上對Meta Llama 3進行了測試,以分享效能預覽。這些預覽數據表明與使用第四代Xeon處理器相比,Xeon 6的Llama 3 8B推理延遲提高了2倍,並且能夠運行更大的語言模型(如Llama 3 70B),在單個兩層上每個產生的令牌不到100ms。
客戶端平台
在第一輪評估中,Intel Core Ultra處理器的閱讀速度已經超過了人類典型的閱讀速度。這些結果是由有8個Xe核心的內建Arc GPU、包括DP4a AI加速和高達120GB/s的系統記憶體頻寬所驅動的。我們很高興能夠投資Llama 3的持續性能和能源效率優化,特別是當我們轉向下一代處理器時。
憑藉對Core Ultra處理器和Arc顯示產品的發布日支援,Intel和Meta之間的合作提供了本地開發工具和跨數百萬台設備的部署。Intel用戶端硬體透過全面的軟體框架和工具進行加速,包括用於本地研發的PyTorch和Intel Extension for PyTorch,以及用於模型部署和推理的OpenVINO Toolkit。
下一步: 在接下來的幾個月中,Meta預計將推出新功能、額外的模型大小和增強的效能。Intel將繼續優化其人工智慧產品的性能,以支援這項新的LLM。
消息來源 |