NVIDIA發布了H100 AI GPU 的一組新測試,並將其與AMD最近推出的MI300X進行了比較。這些最新測試的目的是展示H100如何使用正確的軟體提供比競爭對手更快的效能,而在其競爭對手最近的展示中卻並非如此。
在推進人工智慧演講中,AMD推出了Instinct MI300X GPU,旨在開啟其在資料中心領域的人工智慧之旅。該展示包括各種數據和測試,該公司將MI300X與NVIDIA的H100 GPU進行了比較。AMD聲稱與單一GPU相比,MI300X的效能比H100快20%;與8個GPU伺服器相比,MI300X的效能比H100快60%。NVIDIA 很快就對這些測試做出了回應,並強調結果與事實相去甚遠。
NVIDIA H100 GPU於2022年發布,在軟體方面進行了各種改進。最新的TensorRT-LLM改進以及核心級優化進一步推動了AI特定工作負載的效能。NVIDIA表示,所有這些都允許H100 AI GPU使用FP8運算執行Llama 2 70B等模型。以下是AMD在活動期間展示的Llama 2 70B的AI GPU效能資料:
在將Instinct MI300X與Hopper H100進行比較時,AMD使用ROCm 6.0套件中的最佳化資料庫運行了這些數字。然而NVIDIA H100 GPU的情況並非如此,它並沒有使用TensorRT-LLM等最佳化軟體進行測試。在NVIDIA發布的測試中該公司展示了在 Batch-1中運行Llama 2 70B模型的單一DGX H100伺服器(有最多8個 H100 GPU)的實際測量效能。
AMD對H100的隱含聲明是根據AMD發布展示註腳 #MI300-38中的配置來衡量的。使用vLLM v.02.2.2推理軟體和NVIDIA DGX H100系統,Llama 2 70B查詢的輸入序列長度為2,048,輸出序列長度為128。他們聲稱與有8x GPU MI300X系統的DGX H100相比有相對性能。
對於NVIDIA測量數據,DGX H100配備8個NVIDIA H100 Tensor Core GPU,有80 GB HBM3和公開可用的NVIDIA TensorRT-LLM,第1批的v0.5.0和延遲閾值測量的v0.6.1。工作負載詳細資訊與註腳#MI300-38相同。
結果顯示與AMD在活動期間展示的產品相比使用優化的軟體工作流程時DGX H100伺服器的速度提高了2倍。該伺服器也比AMD MI300X 8-GPU解決方案快 47%。
NVIDIA對這些新捨式的使用是正確的,就像AMD也使用最佳化軟體來評估其GPU的效能一樣,那麼為什麼在測試NVIDIA的硬體時不做同樣的事情呢?NVIDIA 圍繞CUDA生態系統和新興人工智慧市場的軟體非常強大,並且經過多年的努力和開發,而AMD的ROCm 6.0是新的,尚未在現實場景中進行測試。話雖如此,AMD已與Microsoft、META等頂級公司達成了大量交易,這些公司將MI300X GPU視為NVIDIA AI解決方案的替代方案。
Instinct MI300X和MI300A預計將在2024年1H之前推出,大約在同一時間NVIDIA將推出更快的Hopper H200 GPU,隨後在2024年2H推出Blackwell B100。因此人工智慧領域的競爭預計將變得更加激烈。
消息來源 |