AMD的痛點是ROCm軟體，NVIDIA的CUDA軟體在AI開發方面仍然優越

sxs112.tw 發表於前天 22:51

AMD的痛點是ROCm軟體，NVIDIA的CUDA軟體在AI開發方面仍然優越

正如大多數讀者所知資料中心的AI加速之戰競爭異常激烈，NVIDIA提供了頂級軟體。然而AMD近年來試圖透過其用於AI和HPC的Instinct MI300X加速器系列來獲取超大規模廠商和OEM願意花費的部分收入。儘管擁有不錯的硬體，但該公司在軟體方面與競爭對手NVIDIA的差距還差得遠。根據研究和諮詢公司SemiAnalysis的最新報告他們使用Instinct MI300X進行了為期五個月的實驗，用於訓練和測試。結果令人驚訝：即使有更好的硬體，AMD的軟體（包括 ROCm）也嚴重降低了AMD的效能。

SemiAnalysis指出在NVIDIA的GPU與AMD的MI300X進行比較時，我們發現由於AMD公開發布的軟體中缺乏以及AMD的測試不足，MI300X的優勢並未實現。進一步補充AMD的軟體體驗充滿了錯誤，無法透過AMD進行開箱即用的訓練。我們希望AMD能夠在訓練工作負載方面成為NVIDIA的強大競爭對手，但可惜的是截至目前情況還很糟糕。

NVIDIA的巨大優勢在於該軟體功能齊全。 SemiAnalysis報告指出在AMD試圖填補CUDA護城河的同時，NVIDIA工程師也在加班加點地通過新功能、資料庫和性能更新來加深護城河。Tinybox和Tinybox Pro的開發者Tinygrad也在他們的X配置中多次證實了這一點，該配置文件過去也存在AMD軟體的嚴重問題。

在審視2023年的AMD Instinct MI300X和NVIDIA H100/H200晶片時，MI300X在性能方面明顯成為贏家。 FP16計算的速度達到1,307 TFLOP/s，超過了 NVIDIA H100的989 TFLOP/s。 MI300X擁有192GB HBM3，記憶體頻寬為5.3TB/s。這些規格甚至有利於NVIDIA的H200，它提供141GB HBM3e記憶體和4.8TB/s記憶體頻寬。 AMD晶片甚至具有更低的總擁有成本模型，光是網路費用就便宜40%。從理論上講AMD晶片看起來優於NVIDIA的Hopper產品，但實際上並沒有那麼好。

AMD的內部團隊幾乎無法使用GPU來開發和完善ROCm軟體。 Tensorwave是最大的AMD GPU雲端供應商之一，它擁有自己的GPU，免費為 AMD 工程師提供按需硬體，以便修復軟體。這一切都是Tensorwave為AMD GPU付費，將自己的GPU免費租回給AMD的情況。最後SemiAnalysis指出AMD軟體已根據他們的建議進行了改進。儘管如此該公司要達到NVIDIA的CUDA穩定性和性能水平還有很長的路要走。

消息來源

頁: [1]

XFastest 最夯的電腦領域's Archiver

AMD的痛點是ROCm軟體，NVIDIA的CUDA軟體在AI開發方面仍然優越