找回密碼註冊
作者: sxs112.tw
查看: 4319
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

Micron Crucial PRO D5 6400超頻版 玩家開

解銷更快的遊戲速度! 利用低延遲遊戲記憶體的強大功能 利用 Cruci ...

O11 VISION COMPACT 玩家開箱體驗分享活動

迷你身形 三面透視打造精緻PC視野新境界O11 VISION COMPACT 強強聯合 ...

2024 三星SD記憶卡 玩家開箱體驗分享活動

2024 PRO Plus SD 記憶卡 [*]為專業人士打造 [*]釋放極限速度 [*]多 ...

打印 上一主題 下一主題

[顯示卡器] NVIDIA Hopper H200 GPU在最新的MLPerf 4.0結果中繼續佔據主導地位

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2024-3-28 11:08:43 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
NVIDIA憑藉其強大的TensorRT-LLM套件繼續推動AI極限,在最新的MLPerf v4.0結果中將H200 GPU提升到新的高度。
NVIDIA-MLPerf-v4.0-AI-GPU-Results.jpg

生成式人工智慧(GenAI)是一個新興市場,所有硬體製造商都在努力分一杯羹。儘管他們盡了最大努力,但到目前為止NVIDIA仍佔據了大部分,而且這家綠色巨人無法阻止,因為它在MLPerf v4.0推理結果中展示了一些非常強大的記錄。
NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_3-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_4-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_5-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_6-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_7-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_8-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_2-1456x819.png

自去年發布AI軟體套件以來,TensorRT-LLM的微調一直持續進行。我們看到先前的MLPerf v3.1結果和現在的MLPerf v4.0效能有了顯著提高,NVIDIA正在增強 Hopper的效能。推理之所以重要,是因為它佔資料中心收入(去年產生)的40%。推理工作負載範圍包括LLM(大型語言模型)、視覺內容和推薦器。隨著這些模型尺寸的增加,複雜性也隨之增加,並且需要強大的硬體和軟體。

這就是為什麼TensorRT-LLM成為與NVIDIA GPU架構共同設計的最先進的推理編譯器。 TensorRT-LLM的一些功能包括:
  • 運行中序列批次(最佳化 GPU利用率)
  • KV快取管理(更高的GPU記憶體利用率)
  • 廣義注意力(XQA核心)
  • 多GPU多節點(Tensor和管道並行)
  • FP8量化(更高性能並適合更大型號)

使用最新的TensorRT-LLM最佳化,NVIDIA成功地將MLPerf v4.0中的Hopper GPU(例如H100)的效能比MLPerf v3.1提高了2.9倍。在今天的測試結果NVIDIA 在MLPerf Llama 2(700 億)中創造了新的效能記錄,H200(預覽版)每秒產生高達31,712個Tokens ,H100每秒產生21,806個Tokens。值得一提的是H200 GPU大約一個月前進行了測試,這就是為什麼在預覽狀態中提到它,但NVIDIA表示他們已經向客戶提供GPU樣品,並將在第二季發貨。
NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_10.png

憑藉141GB HBM3E的更高記憶體配置和高達4.8TB/s的更快頻寬,NVIDIA H200 GPU使Llama 2的效能比H100 GPU額外提高了45% 。除此之外8 GPU NVIDIA HGX H200 GPU系統打破了Stable Diffusion XL測試,在伺服器和離線場景中分別實現了13.8個查詢/秒和13.7個樣本/秒。

不僅如此雖然H200與H100平台直接相容,但H200的客製化熱設計版本還以MGX平台 (GPU+CPU+DPU) 的形式存在,可將TDP提升至1000W與標準風冷型號相比,性能提高了14%。客製化解決方案可從華擎Rack、華碩、技嘉、和碩、QCT 和 Supermicro等OEM廠商處取得。此外H200 AI GPU預計也將從NVIDIA的眾多CSP和OEM合作夥伴處獲得。
NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_11-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_12-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_13-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_14-1456x819.png

NVIDIA的Hopper H200 GPU有700W的基本TDP和高達1000W的客製化設計。 Blackwell GPU有700W (B100) 和1000/1200W (B200) 配置。談到Blackwell GPU,NVIDIA確認只有B100 GPU能夠與Hopper系統直接相容,而B200 GPU將需要完全不同的機殼和系統設計。第一款Blackwell系統將於今年稍後上市,因此我們可以期待未來提交的MLPerf系統的結果。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-11-13 14:30 , Processed in 0.078835 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表