找回密碼註冊
作者: sxs112.tw
查看: 4369
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

GEX PRO 850W玩家開箱體驗分享活動

卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

體驗極速WiFi 7!MSI Roamii BE Lite Mesh

第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

Micron Crucial PRO D5 6400超頻版 玩家開

解銷更快的遊戲速度! 利用低延遲遊戲記憶體的強大功能 利用 Cruci ...

打印 上一主題 下一主題

[顯示卡器] NVIDIA Hopper H200 GPU在最新的MLPerf 4.0結果中繼續佔據主導地位

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2024-3-28 11:08:43 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
NVIDIA憑藉其強大的TensorRT-LLM套件繼續推動AI極限,在最新的MLPerf v4.0結果中將H200 GPU提升到新的高度。
NVIDIA-MLPerf-v4.0-AI-GPU-Results.jpg

生成式人工智慧(GenAI)是一個新興市場,所有硬體製造商都在努力分一杯羹。儘管他們盡了最大努力,但到目前為止NVIDIA仍佔據了大部分,而且這家綠色巨人無法阻止,因為它在MLPerf v4.0推理結果中展示了一些非常強大的記錄。
NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_3-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_4-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_5-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_6-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_7-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_8-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_2-1456x819.png

自去年發布AI軟體套件以來,TensorRT-LLM的微調一直持續進行。我們看到先前的MLPerf v3.1結果和現在的MLPerf v4.0效能有了顯著提高,NVIDIA正在增強 Hopper的效能。推理之所以重要,是因為它佔資料中心收入(去年產生)的40%。推理工作負載範圍包括LLM(大型語言模型)、視覺內容和推薦器。隨著這些模型尺寸的增加,複雜性也隨之增加,並且需要強大的硬體和軟體。

這就是為什麼TensorRT-LLM成為與NVIDIA GPU架構共同設計的最先進的推理編譯器。 TensorRT-LLM的一些功能包括:
  • 運行中序列批次(最佳化 GPU利用率)
  • KV快取管理(更高的GPU記憶體利用率)
  • 廣義注意力(XQA核心)
  • 多GPU多節點(Tensor和管道並行)
  • FP8量化(更高性能並適合更大型號)

使用最新的TensorRT-LLM最佳化,NVIDIA成功地將MLPerf v4.0中的Hopper GPU(例如H100)的效能比MLPerf v3.1提高了2.9倍。在今天的測試結果NVIDIA 在MLPerf Llama 2(700 億)中創造了新的效能記錄,H200(預覽版)每秒產生高達31,712個Tokens ,H100每秒產生21,806個Tokens。值得一提的是H200 GPU大約一個月前進行了測試,這就是為什麼在預覽狀態中提到它,但NVIDIA表示他們已經向客戶提供GPU樣品,並將在第二季發貨。
NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_10.png

憑藉141GB HBM3E的更高記憶體配置和高達4.8TB/s的更快頻寬,NVIDIA H200 GPU使Llama 2的效能比H100 GPU額外提高了45% 。除此之外8 GPU NVIDIA HGX H200 GPU系統打破了Stable Diffusion XL測試,在伺服器和離線場景中分別實現了13.8個查詢/秒和13.7個樣本/秒。

不僅如此雖然H200與H100平台直接相容,但H200的客製化熱設計版本還以MGX平台 (GPU+CPU+DPU) 的形式存在,可將TDP提升至1000W與標準風冷型號相比,性能提高了14%。客製化解決方案可從華擎Rack、華碩、技嘉、和碩、QCT 和 Supermicro等OEM廠商處取得。此外H200 AI GPU預計也將從NVIDIA的眾多CSP和OEM合作夥伴處獲得。
NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_11-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_12-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_13-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_14-1456x819.png

NVIDIA的Hopper H200 GPU有700W的基本TDP和高達1000W的客製化設計。 Blackwell GPU有700W (B100) 和1000/1200W (B200) 配置。談到Blackwell GPU,NVIDIA確認只有B100 GPU能夠與Hopper系統直接相容,而B200 GPU將需要完全不同的機殼和系統設計。第一款Blackwell系統將於今年稍後上市,因此我們可以期待未來提交的MLPerf系統的結果。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-11-22 05:31 , Processed in 0.091392 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表