NVIDIA憑藉其強大的TensorRT-LLM套件繼續推動AI極限,在最新的MLPerf v4.0結果中將H200 GPU提升到新的高度。
生成式人工智慧(GenAI)是一個新興市場,所有硬體製造商都在努力分一杯羹。儘管他們盡了最大努力,但到目前為止NVIDIA仍佔據了大部分,而且這家綠色巨人無法阻止,因為它在MLPerf v4.0推理結果中展示了一些非常強大的記錄。
自去年發布AI軟體套件以來,TensorRT-LLM的微調一直持續進行。我們看到先前的MLPerf v3.1結果和現在的MLPerf v4.0效能有了顯著提高,NVIDIA正在增強 Hopper的效能。推理之所以重要,是因為它佔資料中心收入(去年產生)的40%。推理工作負載範圍包括LLM(大型語言模型)、視覺內容和推薦器。隨著這些模型尺寸的增加,複雜性也隨之增加,並且需要強大的硬體和軟體。
這就是為什麼TensorRT-LLM成為與NVIDIA GPU架構共同設計的最先進的推理編譯器。 TensorRT-LLM的一些功能包括:
- 運行中序列批次(最佳化 GPU利用率)
- KV快取管理(更高的GPU記憶體利用率)
- 廣義注意力(XQA核心)
- 多GPU多節點(Tensor和管道並行)
- FP8量化(更高性能並適合更大型號)
使用最新的TensorRT-LLM最佳化,NVIDIA成功地將MLPerf v4.0中的Hopper GPU(例如H100)的效能比MLPerf v3.1提高了2.9倍。在今天的測試結果NVIDIA 在MLPerf Llama 2(700 億)中創造了新的效能記錄,H200(預覽版)每秒產生高達31,712個Tokens ,H100每秒產生21,806個Tokens。值得一提的是H200 GPU大約一個月前進行了測試,這就是為什麼在預覽狀態中提到它,但NVIDIA表示他們已經向客戶提供GPU樣品,並將在第二季發貨。
憑藉141GB HBM3E的更高記憶體配置和高達4.8TB/s的更快頻寬,NVIDIA H200 GPU使Llama 2的效能比H100 GPU額外提高了45% 。除此之外8 GPU NVIDIA HGX H200 GPU系統打破了Stable Diffusion XL測試,在伺服器和離線場景中分別實現了13.8個查詢/秒和13.7個樣本/秒。
不僅如此雖然H200與H100平台直接相容,但H200的客製化熱設計版本還以MGX平台 (GPU+CPU+DPU) 的形式存在,可將TDP提升至1000W與標準風冷型號相比,性能提高了14%。客製化解決方案可從華擎Rack、華碩、技嘉、和碩、QCT 和 Supermicro等OEM廠商處取得。此外H200 AI GPU預計也將從NVIDIA的眾多CSP和OEM合作夥伴處獲得。
NVIDIA的Hopper H200 GPU有700W的基本TDP和高達1000W的客製化設計。 Blackwell GPU有700W (B100) 和1000/1200W (B200) 配置。談到Blackwell GPU,NVIDIA確認只有B100 GPU能夠與Hopper系統直接相容,而B200 GPU將需要完全不同的機殼和系統設計。第一款Blackwell系統將於今年稍後上市,因此我們可以期待未來提交的MLPerf系統的結果。
消息來源 |