找回密碼註冊
作者: sxs112.tw
查看: 4595
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    SAMSUNG T7 Shield 移動固態硬碟

    [*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

    GEX PRO 850W玩家開箱體驗分享活動

    卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

    體驗極速WiFi 7!MSI Roamii BE Lite Mesh

    第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

    極致效能 為遊戲而生 990 PRO SSD 玩家體驗

    [*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

    打印 上一主題 下一主題

    [顯示卡器] NVIDIA Hopper H200 GPU在最新的MLPerf 4.0結果中繼續佔據主導地位

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    sxs112.tw 發表於 2024-3-28 11:08:43 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
    NVIDIA憑藉其強大的TensorRT-LLM套件繼續推動AI極限,在最新的MLPerf v4.0結果中將H200 GPU提升到新的高度。
    NVIDIA-MLPerf-v4.0-AI-GPU-Results.jpg

    生成式人工智慧(GenAI)是一個新興市場,所有硬體製造商都在努力分一杯羹。儘管他們盡了最大努力,但到目前為止NVIDIA仍佔據了大部分,而且這家綠色巨人無法阻止,因為它在MLPerf v4.0推理結果中展示了一些非常強大的記錄。
    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_3-1456x819.png


    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_4-1456x819.png


    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_5-1456x819.png


    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_6-1456x819.png


    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_7-1456x819.png


    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_8-1456x819.png


    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_2-1456x819.png

    自去年發布AI軟體套件以來,TensorRT-LLM的微調一直持續進行。我們看到先前的MLPerf v3.1結果和現在的MLPerf v4.0效能有了顯著提高,NVIDIA正在增強 Hopper的效能。推理之所以重要,是因為它佔資料中心收入(去年產生)的40%。推理工作負載範圍包括LLM(大型語言模型)、視覺內容和推薦器。隨著這些模型尺寸的增加,複雜性也隨之增加,並且需要強大的硬體和軟體。

    這就是為什麼TensorRT-LLM成為與NVIDIA GPU架構共同設計的最先進的推理編譯器。 TensorRT-LLM的一些功能包括:
    • 運行中序列批次(最佳化 GPU利用率)
    • KV快取管理(更高的GPU記憶體利用率)
    • 廣義注意力(XQA核心)
    • 多GPU多節點(Tensor和管道並行)
    • FP8量化(更高性能並適合更大型號)

    使用最新的TensorRT-LLM最佳化,NVIDIA成功地將MLPerf v4.0中的Hopper GPU(例如H100)的效能比MLPerf v3.1提高了2.9倍。在今天的測試結果NVIDIA 在MLPerf Llama 2(700 億)中創造了新的效能記錄,H200(預覽版)每秒產生高達31,712個Tokens ,H100每秒產生21,806個Tokens。值得一提的是H200 GPU大約一個月前進行了測試,這就是為什麼在預覽狀態中提到它,但NVIDIA表示他們已經向客戶提供GPU樣品,並將在第二季發貨。
    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_10.png

    憑藉141GB HBM3E的更高記憶體配置和高達4.8TB/s的更快頻寬,NVIDIA H200 GPU使Llama 2的效能比H100 GPU額外提高了45% 。除此之外8 GPU NVIDIA HGX H200 GPU系統打破了Stable Diffusion XL測試,在伺服器和離線場景中分別實現了13.8個查詢/秒和13.7個樣本/秒。

    不僅如此雖然H200與H100平台直接相容,但H200的客製化熱設計版本還以MGX平台 (GPU+CPU+DPU) 的形式存在,可將TDP提升至1000W與標準風冷型號相比,性能提高了14%。客製化解決方案可從華擎Rack、華碩、技嘉、和碩、QCT 和 Supermicro等OEM廠商處取得。此外H200 AI GPU預計也將從NVIDIA的眾多CSP和OEM合作夥伴處獲得。
    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_11-1456x819.png


    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_12-1456x819.png


    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_13-1456x819.png


    NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_14-1456x819.png

    NVIDIA的Hopper H200 GPU有700W的基本TDP和高達1000W的客製化設計。 Blackwell GPU有700W (B100) 和1000/1200W (B200) 配置。談到Blackwell GPU,NVIDIA確認只有B100 GPU能夠與Hopper系統直接相容,而B200 GPU將需要完全不同的機殼和系統設計。第一款Blackwell系統將於今年稍後上市,因此我們可以期待未來提交的MLPerf系統的結果。

    消息來源
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2024-12-23 09:27 , Processed in 0.079513 second(s), 33 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表