AMD的Instinct MI300X AI加速器首次亮相MLPerf v4.1,並已透過下一代EPYC Turin CPU進行測試。
今天AMD在MLPerf Inference v4.1上分享了其最新資料中心和以AI為中心的硬體的首個性能測試。這些工作負載旨在展示AMD、Intel和NVIDIA等各科技龍頭最新和即將推出的硬體的潛力。
AMD正在MLPerf上分享自該晶片推出以來首次提交的Instinct MI300X加速器,同時也讓我們體驗即將推出的EPYC Turin CPU,這是採用Zen5核心架構的第五代伺服器系列。
對於效能評估,AMD提交了在Supermicro AS-8125GS-TNMR2系統上運行的Instinct MI300X AI加速器的結果。在MLPerf v4.1上提交了四個結果,其中兩個在離線場景下提交,兩個在伺服器場景下提交。不同之處在於其中兩項測試是使用第四代EPYC Genoa CPU 進行的,另外兩項結果是使用即將推出的第五代 EPYC Turin CPU進行的。
查看LLama2-70B中的效能結果,AMD在伺服器中實現了21,028 tokens/秒,在EPYC Genoa CPU上運行的離線場景中實現了23,514 tokens/秒,而有相同Instinct配置的第五代EPYC Turin CPU提供了22,021 tokens/秒,離線場景中為24,110 tokens/秒。這標誌著比Genoa CPU平台提高了4.7%和2.5%。
與NVIDIA H100相比,Instinct MI300X的伺服器效能略慢,而離線場景下差異較大。 Turin配置在伺服器場景中確實快了2%,但在離線場景中則滯後。這些結果似乎與NVIDIA在自己的公告中發布的結果相符。 AMD也在Llama2-70B中使用1個GPU和8個GPU進行比較,展示了近乎完美的擴充。
最後AMD強調了其Instinct MI300X AI加速器提供的記憶體優勢,遠遠超過NVIDIA H100平台提供的記憶體優勢。 MI300X提供足夠的記憶體來滿足跨各種資料格式的最大語言模型的要求。
AMD尚未完成此任務,因為它的目標是透過對AI進行更多優化來鞏固其ROCm,以便我們可以在MLPerf提交的下一次更新中看到效能更新。雖然AMD花了很長時間才提交MI300X數據,但我們希望下季推出的MI325X能夠更早提交結果,因為它是一款比MI300X容量增加50%的主要產品。 AMD的EPYC Turin Zen5 CPU也預計將於今年稍後推出,敬請期待。
消息來源 |