找回密碼註冊
作者: sxs112.tw
查看: 4347
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

Micron Crucial PRO D5 6400超頻版 玩家開

解銷更快的遊戲速度! 利用低延遲遊戲記憶體的強大功能 利用 Cruci ...

O11 VISION COMPACT 玩家開箱體驗分享活動

迷你身形 三面透視打造精緻PC視野新境界O11 VISION COMPACT 強強聯合 ...

2024 三星SD記憶卡 玩家開箱體驗分享活動

2024 PRO Plus SD 記憶卡 [*]為專業人士打造 [*]釋放極限速度 [*]多 ...

打印 上一主題 下一主題

[顯示卡器] NVIDIA證明了為什麼它是AI老大:橫掃所有MLPerf訓練,在GPT-175B中實現近乎完美

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2024-6-13 09:25:46 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
NVIDIA在MLPerf中再次展現了其實力,在GPT-3 175B等大型模型中使用Hopper H100和H200 GPU實現了近100%的效率和巨大提升。

說到人工智慧就不能不提到NVIDIA,該公司透過最新的MLPerf Training V4.0測試提交再次證明了這一點,在所有領域都佔據主導地位。 NVIDIA表示AI運算需求持續以爆炸性速度成長,自從Transformer推出以來,我們看到需求在短短2年內成長了256倍。
2024-06-12_19-14-01.png

另一方面是性能,性能越高,為業務帶來的投資報酬率(ROI)就越高。 NVIDIA分享了三個市場以及每個市場中效能的重要性。
2024-06-12_19-14-12.png

首先是訓練,需要有更聰明、訓練速度更快的模式。第二個是推理,其中包括互動式使用者體驗,其中包括ChatGPT之類的內容,使用者希望對他們剛剛輸入的查詢得到即時回應。 NVIDIA最近在財報電話會議上提到LLM服務提供者在4年內每投資1美元就有機會獲得7美元的收入,這對企業來說是相當巨大的。
2024-06-12_19-14-20.png

那麼NVIDIA在最新的MLPerf Training v4.0效能測試方面表現如何,他們打破了他們已經設定的每個效能標準,同時創造了五項新的世界紀錄。
2024-06-12_19-14-34.png

數字如下:
  • Graph Neural Network R-GAT (512 H100 GPUs) - 1.1 Mins
  • LLM Fine-Tuning Llama 2 70B-LoRA (1024 H100 GPUs) - 1.5 Mins
  • LLM GPT-3 175B (11,616 H100 GPUs) - 3.4 Mins
  • Text-To-Image Stable Diffusion v2 (1024 H100 GPUs) - 1.4 Mins
  • Object Detection RetinaNet (2528 H100 GPUs) - 0.8 Mins
  • Image Classification ResNet-50 (3584 H100 GPUs) 0.2 Mins
  • NLP BERT-large (3472 H100 GPUs) - 0.1 Mins
  • Medical Imaging 3D U-Net (768 H100 GPUs) - 0.8 Mins
  • Recommendation 3D U-Net (128 H100 GPUs) - 1 Min

不僅如此自去年提交以來,NVIDIA還實現了3.2倍的效能提升。 EOS-DFW superpod現在配備11,616個H100 GPU(2023年6月為3584個GPU),這些GPU使用快速NVIDIA 400G Quantum-2 InfiniBand互連進行互連。
2024-06-12_19-14-42-1456x809.png


2024-06-12_19-15-00-1456x809.png


2024-06-12_19-15-08-1456x809.png

NVIDIA也表示新的和改進的軟體堆疊有助於在GPT-3 175B等訓練工作負載中實現近乎完美的大規模擴展。為什麼這種擴充很重要,因為NVIDIA目前正在打造配備100,000到300,000個GPU的大型AI工廠。其中一個配備Hopper GPU的人工智慧工廠將於今年稍後上線,一座新的Blackwell工廠預計將於2025年投入使用。
2024-06-12_19-14-53.png

但不僅僅是擴充效能變得更好,Hopper GPU也在升級。在最新的測試中,最新的全端優化現已將H100 GPU的效能再提升了27%,這可以透過多項新整合來實現,例如:
  • 高度調優的FP8和新
  • FP8感知分散式最佳化器
  • 優化的cuDNN FlashAttention
  • 改進數學和通信執行重疊
  • 智慧GPU功率分配
  • 在512 GPU規模下持續>900 TFLOPs/s/GPU

2024-06-12_19-15-16.png

在文字到影像訓練效能方面,NVIDIA強調使用Hopper GPU在短短7個月內就實現了80%的效能提升。實現這一成長的最佳化包括全新CUDA、分散式最佳化器、最佳化卷積和GEMM。
2024-06-12_19-15-25.png

轉向NVIDIA HGX H200 Hopper平台,新晶片能夠在 Llama 2 70B 微調中提供最快的性能,並打破MLPerf v4.0標準。 Hopper H200 GPU在Llama 2 70B微調效能方面比Intel Gaudi 2快3.2倍,在Llama 2 70B推理效能方面比Gaudi 2快4.7倍。所有GPU均使用8個加速器配置進行測試。
2024-06-12_19-15-33.png

即使在涵蓋這些測試的同時,NVIDIA也在即將推出的軟體中預告H100和H200 GPU的效能將有更大的提升。
2024-06-12_19-15-42.png

如果您認為NVIDIA製造了瘋狂的硬體,那麼他們的CUDA和軟體團隊是一個完全不同的團隊,他們不斷地年復一年地展示他們的工程和調優專業知識。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-11-13 18:33 , Processed in 0.090727 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表