AMD Instinct MI250透過PyTorch 2.0和ROCm 5.4提升AI性能，在LLM中逼近NVIDIA GPU

sxs112.tw 發表於 2023-7-3 21:19:33

AMD Instinct MI250透過PyTorch 2.0和ROCm 5.4提升AI性能，在LLM中逼近NVIDIA GPU

MI250等AMD Instinct GPU的AI性能得到了大幅提升，使其更接近NVIDIA的晶片。

在MosaicML的Blog文章中，該軟體供應商展示了PyTorch 2.0和ROCM 5.4如何幫助提高AMD數據中心GPU（例如Instinct系列）的性能，而無需更改任何代碼。該軟體供應商為NVIDIA和AMD提供的各種支援16位元精度 (FP16/BF16) 的解決方案提供了對ML和LLM培訓的增強支援。最近的版本使MosaicML能夠透過使用其LLM Foundry Stack來從AMD Instinct加速器中獲得更好的性能。

結果要點如下：

[*]LLM培養穩定。借助我們高度確定性的LLM Foundry訓練堆棧，在AMD MI250和NVIDIA A100上訓練MPT-1B LLM模型時，從同一檢查點開始時會產生幾乎相同的損失曲線。我們甚至能夠在一次訓練中在AMD和NVIDIA之間來回切換！
[*]性能與我們現有的A100系統相比有競爭力。我們對MPT模型從1B到13B參數的訓練吞吐量進行了分析，發現MI250的每GPU吞吐量在A100-40GB的80%以內，在A100-80GB的73%以內。我們預計隨著AMD軟體的改進，這一差距將會縮小。
[*]一切都正常。無需更改代碼。

雖然AMD的Instinct MI250 GPU在FP16 FLOP（無稀疏性）、記憶體容量和記憶體頻寬方面比NVIDIA A100 GPU稍有優勢，但應該注意的是MI250只能擴展到4 個加速器，而NVIDIA A100 GPU可以擴展單個系統上最多有8個GPU。

更深入地觀察，AMD和NVIDIA硬體都能夠透過LLM Foundry輕鬆啟動AI訓練工作負載。在兩個訓練工作負載中評估性能，第一個是總體吞吐量（Tokens/Sec/GPU），另一個是總體性能（TFLOP/Sec/GPU）。

AI訓練吞吐量是在10億到130億個參數的一系列模型上完成的。測試表明AMD Instinct MI250的性能是NVIDIA A100 40GB版本的80%，是80GB版本的73%。NVIDIA確實在所有測試中保持了領先地位，但應該提到的是他們在測試中運行的GPU數量也是原來的兩倍。此外據稱未來AMD Instinct加速器預計將在訓練方面進一步改進。

AMD已經在為HPC和AI工作負載開發下一代Instinct MI300加速器。該公司展示了該晶片如何在單一解決方案上處理有400億個參數的LLM模型。MI300還將擴展到多達8個GPU和APU配置。該晶片將與NVIDIA的H100以及NVIDIA在來年發布的任何產品展開競爭。MI300將提供所有GPU中最高的記憶體容量，擁有192GB HBM3，並且頻寬比NVIDIA的解決方案高得多。AMD方面的這些軟體進步是否足以佔領NVIDIA在AI領域獲得的90%以上的市佔率，這將是一件很有趣的事情。

消息來源

頁: [1]

XFastest 最夯的電腦領域's Archiver

AMD Instinct MI250透過PyTorch 2.0和ROCm 5.4提升AI性能，在LLM中逼近NVIDIA GPU