找回密碼註冊
作者: sxs112.tw
查看: 4378
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

GEX PRO 850W玩家開箱體驗分享活動

卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

體驗極速WiFi 7!MSI Roamii BE Lite Mesh

第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

Micron Crucial PRO D5 6400超頻版 玩家開

解銷更快的遊戲速度! 利用低延遲遊戲記憶體的強大功能 利用 Cruci ...

打印 上一主題 下一主題

[顯示卡器] NVIDIA證明了為什麼它是AI老大:橫掃所有MLPerf訓練,在GPT-175B中實現近乎完美

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2024-6-13 09:25:46 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
NVIDIA在MLPerf中再次展現了其實力,在GPT-3 175B等大型模型中使用Hopper H100和H200 GPU實現了近100%的效率和巨大提升。

說到人工智慧就不能不提到NVIDIA,該公司透過最新的MLPerf Training V4.0測試提交再次證明了這一點,在所有領域都佔據主導地位。 NVIDIA表示AI運算需求持續以爆炸性速度成長,自從Transformer推出以來,我們看到需求在短短2年內成長了256倍。
2024-06-12_19-14-01.png

另一方面是性能,性能越高,為業務帶來的投資報酬率(ROI)就越高。 NVIDIA分享了三個市場以及每個市場中效能的重要性。
2024-06-12_19-14-12.png

首先是訓練,需要有更聰明、訓練速度更快的模式。第二個是推理,其中包括互動式使用者體驗,其中包括ChatGPT之類的內容,使用者希望對他們剛剛輸入的查詢得到即時回應。 NVIDIA最近在財報電話會議上提到LLM服務提供者在4年內每投資1美元就有機會獲得7美元的收入,這對企業來說是相當巨大的。
2024-06-12_19-14-20.png

那麼NVIDIA在最新的MLPerf Training v4.0效能測試方面表現如何,他們打破了他們已經設定的每個效能標準,同時創造了五項新的世界紀錄。
2024-06-12_19-14-34.png

數字如下:
  • Graph Neural Network R-GAT (512 H100 GPUs) - 1.1 Mins
  • LLM Fine-Tuning Llama 2 70B-LoRA (1024 H100 GPUs) - 1.5 Mins
  • LLM GPT-3 175B (11,616 H100 GPUs) - 3.4 Mins
  • Text-To-Image Stable Diffusion v2 (1024 H100 GPUs) - 1.4 Mins
  • Object Detection RetinaNet (2528 H100 GPUs) - 0.8 Mins
  • Image Classification ResNet-50 (3584 H100 GPUs) 0.2 Mins
  • NLP BERT-large (3472 H100 GPUs) - 0.1 Mins
  • Medical Imaging 3D U-Net (768 H100 GPUs) - 0.8 Mins
  • Recommendation 3D U-Net (128 H100 GPUs) - 1 Min

不僅如此自去年提交以來,NVIDIA還實現了3.2倍的效能提升。 EOS-DFW superpod現在配備11,616個H100 GPU(2023年6月為3584個GPU),這些GPU使用快速NVIDIA 400G Quantum-2 InfiniBand互連進行互連。
2024-06-12_19-14-42-1456x809.png


2024-06-12_19-15-00-1456x809.png


2024-06-12_19-15-08-1456x809.png

NVIDIA也表示新的和改進的軟體堆疊有助於在GPT-3 175B等訓練工作負載中實現近乎完美的大規模擴展。為什麼這種擴充很重要,因為NVIDIA目前正在打造配備100,000到300,000個GPU的大型AI工廠。其中一個配備Hopper GPU的人工智慧工廠將於今年稍後上線,一座新的Blackwell工廠預計將於2025年投入使用。
2024-06-12_19-14-53.png

但不僅僅是擴充效能變得更好,Hopper GPU也在升級。在最新的測試中,最新的全端優化現已將H100 GPU的效能再提升了27%,這可以透過多項新整合來實現,例如:
  • 高度調優的FP8和新
  • FP8感知分散式最佳化器
  • 優化的cuDNN FlashAttention
  • 改進數學和通信執行重疊
  • 智慧GPU功率分配
  • 在512 GPU規模下持續>900 TFLOPs/s/GPU

2024-06-12_19-15-16.png

在文字到影像訓練效能方面,NVIDIA強調使用Hopper GPU在短短7個月內就實現了80%的效能提升。實現這一成長的最佳化包括全新CUDA、分散式最佳化器、最佳化卷積和GEMM。
2024-06-12_19-15-25.png

轉向NVIDIA HGX H200 Hopper平台,新晶片能夠在 Llama 2 70B 微調中提供最快的性能,並打破MLPerf v4.0標準。 Hopper H200 GPU在Llama 2 70B微調效能方面比Intel Gaudi 2快3.2倍,在Llama 2 70B推理效能方面比Gaudi 2快4.7倍。所有GPU均使用8個加速器配置進行測試。
2024-06-12_19-15-33.png

即使在涵蓋這些測試的同時,NVIDIA也在即將推出的軟體中預告H100和H200 GPU的效能將有更大的提升。
2024-06-12_19-15-42.png

如果您認為NVIDIA製造了瘋狂的硬體,那麼他們的CUDA和軟體團隊是一個完全不同的團隊,他們不斷地年復一年地展示他們的工程和調優專業知識。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-11-18 19:06 , Processed in 0.076161 second(s), 34 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表