sxs112.tw 發表於 2023-7-3 21:19:33

AMD Instinct MI250透過PyTorch 2.0和ROCm 5.4提升AI性能,在LLM中逼近NVIDIA GPU

MI250等AMD Instinct GPU的AI性能得到了大幅提升,使其更接近NVIDIA的晶片。

在MosaicML的Blog文章中,該軟體供應商展示了PyTorch 2.0和ROCM 5.4如何幫助提高AMD數據中心GPU(例如Instinct系列)的性能,而無需更改任何代碼。該軟體供應商為NVIDIA和AMD提供的各種支援16位元精度 (FP16/BF16) 的解決方案提供了對ML和LLM培訓的增強支援。最近的版本使MosaicML能夠透過使用其LLM Foundry Stack來從AMD Instinct加速器中獲得更好的性能。

結果要點如下:


[*]LLM培養穩定。借助我們高度確定性的LLM Foundry訓練堆棧,在AMD MI250和NVIDIA A100上訓練MPT-1B LLM模型時,從同一檢查點開始時會產生幾乎相同的損失曲線。我們甚至能夠在一次訓練中在AMD和NVIDIA之間來回切換!
[*]性能與我們現有的A100系統相比有競爭力。我們對MPT模型從1B到13B參數的訓練吞吐量進行了分析,發現MI250的每GPU吞吐量在A100-40GB的80%以內,在A100-80GB的73%以內。我們預計隨著AMD軟體的改進,這一差距將會縮小。
[*]一切都正常。 無需更改代碼。

雖然AMD的Instinct MI250 GPU在FP16 FLOP(無稀疏性)、記憶體容量和記憶體頻寬方面比NVIDIA A100 GPU稍有優勢,但應該注意的是MI250只能擴展到4 個加速器,而NVIDIA A100 GPU可以擴展單個系統上最多有8個GPU。

更深入地觀察,AMD和NVIDIA硬體都能夠透過LLM Foundry輕鬆啟動AI訓練工作負載。在兩個訓練工作負載中評估性能,第一個是總體吞吐量(Tokens/Sec/GPU),另一個是總體性能(TFLOP/Sec/GPU)。

AI訓練吞吐量是在10億到130億個參數的一系列模型上完成的。測試表明AMD Instinct MI250的性能是NVIDIA A100 40GB版本的80%,是80GB版本的73%。NVIDIA確實在所有測試中保持了領先地位,但應該提到的是他們在測試中運行的GPU數量也是原來的兩倍。此外據稱未來AMD Instinct加速器預計將在訓練方面進一步改進。

AMD已經在為HPC和AI工作負載開發下一代Instinct MI300加速器。該公司展示了該晶片如何在單一解決方案上處理有400億個參數的LLM模型。MI300還將擴展到多達8個GPU和APU配置。該晶片將與NVIDIA的H100以及NVIDIA在來年發布的任何產品展開競爭。MI300將提供所有GPU中最高的記憶體容量,擁有192GB HBM3,並且頻寬比NVIDIA的解決方案高得多。AMD方面的這些軟體進步是否足以佔領NVIDIA在AI領域獲得的90%以上的市佔率,這將是一件很有趣的事情。

消息來源
頁: [1]
查看完整版本: AMD Instinct MI250透過PyTorch 2.0和ROCm 5.4提升AI性能,在LLM中逼近NVIDIA GPU