sxs112.tw 發表於 2024-7-24 18:48:18

Intel宣布對Llama 3.1進行最佳化,以提升所有產品的效能:Gaudi、Xeon、Core和Arc系列

Meta的Llama 3.1現已上線,Intel宣布其整個產品組合(例如Gaudi、Xeon、Arc和Core)全面支援Llama 3.1 AI模型。

Meta今天剛推出了最新的大型語言模型Llama 3.1,取代了4月發布的Llama 3。隨後Intel發布了Llama 3.1在其最新產品上的效能數據,包括採用Core Ultra處理器和Arc顯示卡的Intel Gaudi、Xeon和AI PC。Intel正持續致力於其人工智慧軟體生態系統,新的Llama 3.1模型已在其人工智慧產品上啟用,這些產品可使用PyTorch和Intel Extension for PyTorch、DeepSpeed、Hugging Face Optimum Libraries和vLLM等各種框架,確保使用者獲得增強的效能最新Meta LLM的資料中心、邊緣和客戶端人工智慧產品。

Llama 3.1由多語言LLM集合組成,提供不同大小的預訓練和指令調整的生成模型。 Llama 3.1中導入的最大基礎模型是405B,它提供了常識、可操縱性、數學、工具使用和多語言翻譯方面最先進的功能。較小的型號包括70B和8B,前者是高性能且經濟高效的型號,後者是可實現超快速反應的輕量級型號。



Intel在其Intel Gaudi加速器上測試了Llama 3.1 405B,這些加速器是專門為經濟高效且高性能的訓練和推理而設計的處理器。結果顯示不同token長度的快速反應和高吞吐量,展示了Gaudi 2加速器和Gaudi軟體的功能。同樣Gaudi 2加速器在32k和128k token長度的70B上顯示出更快的性能。

接下來我們看到在測試上展示了Intel第五代Xeon處理器,它顯示了不同token長度的效能。對於1K、2K和8K token輸入,BF16和WOQ INT8測試中token延遲都處於較接近的範圍內(大部分低於40ms和30ms)。這顯示了Intel Xeon處理器的快速反應,該處理器擁有Intel AMX(高級矩陣擴展)以實現卓越的AI性能。即使使用128K token輸入,兩項測試中的延遲仍低於100ms。



在8B-Instruct 4位元權重模型上進行測試時,Llama 3.1 8B推理在Intel Core Ultra處理器上也非常快速。在有內建Arc顯示卡的Core Ultra 7 165H上進行測試時,在輸入32、256、512和1024個token時,令牌延遲保持在50ms到60ms之間。在像Arc A770 16GB限量版這樣的獨立Arc GPU 上,延遲非常低,在所有四種不同的token輸入大小下都保持在15ms左右。

消息來源
頁: [1]
查看完整版本: Intel宣布對Llama 3.1進行最佳化,以提升所有產品的效能:Gaudi、Xeon、Core和Arc系列