NVIDIA Hopper H200 GPU在最新的MLPerf 4.0結果中繼續佔據主導地位

sxs112.tw 發表於 2024-3-28 11:08:43

NVIDIA Hopper H200 GPU在最新的MLPerf 4.0結果中繼續佔據主導地位

NVIDIA憑藉其強大的TensorRT-LLM套件繼續推動AI極限，在最新的MLPerf v4.0結果中將H200 GPU提升到新的高度。

生成式人工智慧（GenAI）是一個新興市場，所有硬體製造商都在努力分一杯羹。儘管他們盡了最大努力，但到目前為止NVIDIA仍佔據了大部分，而且這家綠色巨人無法阻止，因為它在MLPerf v4.0推理結果中展示了一些非常強大的記錄。

自去年發布AI軟體套件以來，TensorRT-LLM的微調一直持續進行。我們看到先前的MLPerf v3.1結果和現在的MLPerf v4.0效能有了顯著提高，NVIDIA正在增強 Hopper的效能。推理之所以重要，是因為它佔資料中心收入（去年產生）的40%。推理工作負載範圍包括LLM（大型語言模型）、視覺內容和推薦器。隨著這些模型尺寸的增加，複雜性也隨之增加，並且需要強大的硬體和軟體。

這就是為什麼TensorRT-LLM成為與NVIDIA GPU架構共同設計的最先進的推理編譯器。 TensorRT-LLM的一些功能包括：

[*]運行中序列批次（最佳化 GPU利用率）
[*]KV快取管理（更高的GPU記憶體利用率）
[*]廣義注意力（XQA核心）
[*]多GPU多節點（Tensor和管道並行）
[*]FP8量化（更高性能並適合更大型號）

使用最新的TensorRT-LLM最佳化，NVIDIA成功地將MLPerf v4.0中的Hopper GPU（例如H100）的效能比MLPerf v3.1提高了2.9倍。在今天的測試結果NVIDIA 在MLPerf Llama 2（700 億）中創造了新的效能記錄，H200（預覽版）每秒產生高達31,712個Tokens ，H100每秒產生21,806個Tokens。值得一提的是H200 GPU大約一個月前進行了測試，這就是為什麼在預覽狀態中提到它，但NVIDIA表示他們已經向客戶提供GPU樣品，並將在第二季發貨。

憑藉141GB HBM3E的更高記憶體配置和高達4.8TB/s的更快頻寬，NVIDIA H200 GPU使Llama 2的效能比H100 GPU額外提高了45% 。除此之外8 GPU NVIDIA HGX H200 GPU系統打破了Stable Diffusion XL測試，在伺服器和離線場景中分別實現了13.8個查詢/秒和13.7個樣本/秒。

不僅如此雖然H200與H100平台直接相容，但H200的客製化熱設計版本還以MGX平台 (GPU+CPU+DPU) 的形式存在，可將TDP提升至1000W與標準風冷型號相比，性能提高了14%。客製化解決方案可從華擎Rack、華碩、技嘉、和碩、QCT 和 Supermicro等OEM廠商處取得。此外H200 AI GPU預計也將從NVIDIA的眾多CSP和OEM合作夥伴處獲得。

NVIDIA的Hopper H200 GPU有700W的基本TDP和高達1000W的客製化設計。 Blackwell GPU有700W (B100) 和1000/1200W (B200) 配置。談到Blackwell GPU，NVIDIA確認只有B100 GPU能夠與Hopper系統直接相容，而B200 GPU將需要完全不同的機殼和系統設計。第一款Blackwell系統將於今年稍後上市，因此我們可以期待未來提交的MLPerf系統的結果。

消息來源

頁: [1]

XFastest 最夯的電腦領域's Archiver

NVIDIA Hopper H200 GPU在最新的MLPerf 4.0結果中繼續佔據主導地位