正如大多數讀者所知資料中心的AI加速之戰競爭異常激烈,NVIDIA提供了頂級軟體。然而AMD近年來試圖透過其用於AI和HPC的Instinct MI300X加速器系列來獲取超大規模廠商和OEM願意花費的部分收入。儘管擁有不錯的硬體,但該公司在軟體方面與競爭對手NVIDIA的差距還差得遠。根據研究和諮詢公司SemiAnalysis的最新報告他們使用Instinct MI300X進行了為期五個月的實驗,用於訓練和測試。結果令人驚訝:即使有更好的硬體,AMD的軟體(包括 ROCm)也嚴重降低了AMD的效能。
SemiAnalysis指出在NVIDIA的GPU與AMD的MI300X進行比較時,我們發現由於AMD公開發布的軟體中缺乏以及AMD的測試不足,MI300X的優勢並未實現。進一步補充AMD的軟體體驗充滿了錯誤,無法透過AMD進行開箱即用的訓練。我們希望AMD能夠在訓練工作負載方面成為NVIDIA的強大競爭對手,但可惜的是截至目前情況還很糟糕。
NVIDIA的巨大優勢在於該軟體功能齊全。 SemiAnalysis報告指出在AMD試圖填補CUDA護城河的同時,NVIDIA工程師也在加班加點地通過新功能、資料庫和性能更新來加深護城河。Tinybox和Tinybox Pro的開發者Tinygrad也在他們的X配置中多次證實了這一點,該配置文件過去也存在AMD軟體的嚴重問題。
在審視2023年的AMD Instinct MI300X和NVIDIA H100/H200晶片時,MI300X在性能方面明顯成為贏家。 FP16計算的速度達到1,307 TFLOP/s,超過了 NVIDIA H100的989 TFLOP/s。 MI300X擁有192GB HBM3,記憶體頻寬為5.3TB/s。這些規格甚至有利於NVIDIA的H200,它提供141GB HBM3e記憶體和4.8TB/s記憶體頻寬。 AMD晶片甚至具有更低的總擁有成本模型,光是網路費用就便宜40%。從理論上講AMD晶片看起來優於NVIDIA的Hopper產品,但實際上並沒有那麼好。
AMD的內部團隊幾乎無法使用GPU來開發和完善ROCm軟體。 Tensorwave是最大的AMD GPU雲端供應商之一,它擁有自己的GPU,免費為 AMD 工程師提供按需硬體,以便修復軟體。這一切都是Tensorwave為AMD GPU付費,將自己的GPU免費租回給AMD的情況。最後SemiAnalysis指出AMD軟體已根據他們的建議進行了改進。儘管如此該公司要達到NVIDIA的CUDA穩定性和性能水平還有很長的路要走。
消息來源
|