找回密碼註冊
作者: sxs112.tw
查看: 4752
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

極致效能優化 三星990 EVO 玩家體驗分享活

[*]進化日常效能 極致效能優化、電源效率提升、廣泛的通用 ...

FSP VITA GM White 玩家開箱體驗分享活動

中秋佳節,全漢加碼活動來囉~ [*]符合最新 Intel ® ATX 3.1電源設 ...

FV150 RGB 玩家開箱體驗分享活動

粉紅控趕快看過來.......廠商加碼活動來囉~ 心動了嗎? 想取得體驗 ...

海韻創新技術分享會 會後分享--得獎公告

頭獎:dwi0342 https://www.xfastest.com/thread-290899-1-1.html ...

打印 上一主題 下一主題

[顯示卡器] AMD Instinct MI250透過PyTorch 2.0和ROCm 5.4提升AI性能,在LLM中逼近NVIDIA GPU

[複製鏈接]| 回復
跳轉到指定樓層
1#
MI250等AMD Instinct GPU的AI性能得到了大幅提升,使其更接近NVIDIA的晶片。

在MosaicML的Blog文章中,該軟體供應商展示了PyTorch 2.0和ROCM 5.4如何幫助提高AMD數據中心GPU(例如Instinct系列)的性能,而無需更改任何代碼。該軟體供應商為NVIDIA和AMD提供的各種支援16位元精度 (FP16/BF16) 的解決方案提供了對ML和LLM培訓的增強支援。最近的版本使MosaicML能夠透過使用其LLM Foundry Stack來從AMD Instinct加速器中獲得更好的性能。
AMD-Instinct-MI250-vs-NVIDIA-A100-AI-GPU-LLM-Model-Performance-_3-Custom.png

結果要點如下:

  • LLM培養穩定。借助我們高度確定性的LLM Foundry訓練堆棧,在AMD MI250和NVIDIA A100上訓練MPT-1B LLM模型時,從同一檢查點開始時會產生幾乎相同的損失曲線。我們甚至能夠在一次訓練中在AMD和NVIDIA之間來回切換!
  • 性能與我們現有的A100系統相比有競爭力。我們對MPT模型從1B到13B參數的訓練吞吐量進行了分析,發現MI250的每GPU吞吐量在A100-40GB的80%以內,在A100-80GB的73%以內。我們預計隨著AMD軟體的改進,這一差距將會縮小。
  • 一切都正常。 無需更改代碼。
雖然AMD的Instinct MI250 GPU在FP16 FLOP(無稀疏性)、記憶體容量和記憶體頻寬方面比NVIDIA A100 GPU稍有優勢,但應該注意的是MI250只能擴展到4 個加速器,而NVIDIA A100 GPU可以擴展單個系統上最多有8個GPU。

更深入地觀察,AMD和NVIDIA硬體都能夠透過LLM Foundry輕鬆啟動AI訓練工作負載。在兩個訓練工作負載中評估性能,第一個是總體吞吐量(Tokens/Sec/GPU),另一個是總體性能(TFLOP/Sec/GPU)。
AMD-Instinct-MI250-vs-NVIDIA-A100-AI-GPU-LLM-Model-Performance-_1.png

AI訓練吞吐量是在10億到130億個參數的一系列模型上完成的。測試表明AMD Instinct MI250的性能是NVIDIA A100 40GB版本的80%,是80GB版本的73%。NVIDIA確實在所有測試中保持了領先地位,但應該提到的是他們在測試中運行的GPU數量也是原來的兩倍。此外據稱未來AMD Instinct加速器預計將在訓練方面進一步改進。

AMD已經在為HPC和AI工作負載開發下一代Instinct MI300加速器。該公司展示了該晶片如何在單一解決方案上處理有400億個參數的LLM模型。MI300還將擴展到多達8個GPU和APU配置。該晶片將與NVIDIA的H100以及NVIDIA在來年發布的任何產品展開競爭。MI300將提供所有GPU中最高的記憶體容量,擁有192GB HBM3,並且頻寬比NVIDIA的解決方案高得多。AMD方面的這些軟體進步是否足以佔領NVIDIA在AI領域獲得的90%以上的市佔率,這將是一件很有趣的事情。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-9-20 19:58 , Processed in 0.104220 second(s), 34 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表