NVIDIA證明了為什麼它是AI老大：橫掃所有MLPerf訓練，在GPT-175B中實現近乎完美

sxs112.tw · 發表於 2024-6-13 09:25:46

NVIDIA在MLPerf中再次展現了其實力，在GPT-3 175B等大型模型中使用Hopper H100和H200 GPU實現了近100%的效率和巨大提升。

說到人工智慧就不能不提到NVIDIA，該公司透過最新的MLPerf Training V4.0測試提交再次證明了這一點，在所有領域都佔據主導地位。 NVIDIA表示AI運算需求持續以爆炸性速度成長，自從Transformer推出以來，我們看到需求在短短2年內成長了256倍。

另一方面是性能，性能越高，為業務帶來的投資報酬率（ROI）就越高。 NVIDIA分享了三個市場以及每個市場中效能的重要性。

首先是訓練，需要有更聰明、訓練速度更快的模式。第二個是推理，其中包括互動式使用者體驗，其中包括ChatGPT之類的內容，使用者希望對他們剛剛輸入的查詢得到即時回應。 NVIDIA最近在財報電話會議上提到LLM服務提供者在4年內每投資1美元就有機會獲得7美元的收入，這對企業來說是相當巨大的。

那麼NVIDIA在最新的MLPerf Training v4.0效能測試方面表現如何，他們打破了他們已經設定的每個效能標準，同時創造了五項新的世界紀錄。

數字如下：

Graph Neural Network R-GAT (512 H100 GPUs) - 1.1 Mins
LLM Fine-Tuning Llama 2 70B-LoRA (1024 H100 GPUs) - 1.5 Mins
LLM GPT-3 175B (11,616 H100 GPUs) - 3.4 Mins
Text-To-Image Stable Diffusion v2 (1024 H100 GPUs) - 1.4 Mins
Object Detection RetinaNet (2528 H100 GPUs) - 0.8 Mins
Image Classification ResNet-50 (3584 H100 GPUs) 0.2 Mins
NLP BERT-large (3472 H100 GPUs) - 0.1 Mins
Medical Imaging 3D U-Net (768 H100 GPUs) - 0.8 Mins
Recommendation 3D U-Net (128 H100 GPUs) - 1 Min

不僅如此自去年提交以來，NVIDIA還實現了3.2倍的效能提升。 EOS-DFW superpod現在配備11,616個H100 GPU（2023年6月為3584個GPU），這些GPU使用快速NVIDIA 400G Quantum-2 InfiniBand互連進行互連。

NVIDIA也表示新的和改進的軟體堆疊有助於在GPT-3 175B等訓練工作負載中實現近乎完美的大規模擴展。為什麼這種擴充很重要，因為NVIDIA目前正在打造配備100,000到300,000個GPU的大型AI工廠。其中一個配備Hopper GPU的人工智慧工廠將於今年稍後上線，一座新的Blackwell工廠預計將於2025年投入使用。

但不僅僅是擴充效能變得更好，Hopper GPU也在升級。在最新的測試中，最新的全端優化現已將H100 GPU的效能再提升了27%，這可以透過多項新整合來實現，例如：

高度調優的FP8和新
FP8感知分散式最佳化器
優化的cuDNN FlashAttention
改進數學和通信執行重疊
智慧GPU功率分配
在512 GPU規模下持續>900 TFLOPs/s/GPU

在文字到影像訓練效能方面，NVIDIA強調使用Hopper GPU在短短7個月內就實現了80%的效能提升。實現這一成長的最佳化包括全新CUDA、分散式最佳化器、最佳化卷積和GEMM。

轉向NVIDIA HGX H200 Hopper平台，新晶片能夠在 Llama 2 70B 微調中提供最快的性能，並打破MLPerf v4.0標準。 Hopper H200 GPU在Llama 2 70B微調效能方面比Intel Gaudi 2快3.2倍，在Llama 2 70B推理效能方面比Gaudi 2快4.7倍。所有GPU均使用8個加速器配置進行測試。

即使在涵蓋這些測試的同時，NVIDIA也在即將推出的軟體中預告H100和H200 GPU的效能將有更大的提升。

如果您認為NVIDIA製造了瘋狂的硬體，那麼他們的CUDA和軟體團隊是一個完全不同的團隊，他們不斷地年復一年地展示他們的工程和調優專業知識。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

SAMSUNG T7 Shield 移動固態硬碟

GEX PRO 850W玩家開箱體驗分享活動

體驗極速WiFi 7！MSI Roamii BE Lite Mesh

極致效能為遊戲而生 990 PRO SSD 玩家體驗

[顯示卡器] NVIDIA證明了為什麼它是AI老大：橫掃所有MLPerf訓練，在GPT-175B中實現近乎完美