NVIDIA在MLPerf中再次展現了其實力,在GPT-3 175B等大型模型中使用Hopper H100和H200 GPU實現了近100%的效率和巨大提升。
說到人工智慧就不能不提到NVIDIA,該公司透過最新的MLPerf Training V4.0測試提交再次證明了這一點,在所有領域都佔據主導地位。 NVIDIA表示AI運算需求持續以爆炸性速度成長,自從Transformer推出以來,我們看到需求在短短2年內成長了256倍。
另一方面是性能,性能越高,為業務帶來的投資報酬率(ROI)就越高。 NVIDIA分享了三個市場以及每個市場中效能的重要性。
首先是訓練,需要有更聰明、訓練速度更快的模式。第二個是推理,其中包括互動式使用者體驗,其中包括ChatGPT之類的內容,使用者希望對他們剛剛輸入的查詢得到即時回應。 NVIDIA最近在財報電話會議上提到LLM服務提供者在4年內每投資1美元就有機會獲得7美元的收入,這對企業來說是相當巨大的。
那麼NVIDIA在最新的MLPerf Training v4.0效能測試方面表現如何,他們打破了他們已經設定的每個效能標準,同時創造了五項新的世界紀錄。
數字如下:
- Graph Neural Network R-GAT (512 H100 GPUs) - 1.1 Mins
- LLM Fine-Tuning Llama 2 70B-LoRA (1024 H100 GPUs) - 1.5 Mins
- LLM GPT-3 175B (11,616 H100 GPUs) - 3.4 Mins
- Text-To-Image Stable Diffusion v2 (1024 H100 GPUs) - 1.4 Mins
- Object Detection RetinaNet (2528 H100 GPUs) - 0.8 Mins
- Image Classification ResNet-50 (3584 H100 GPUs) 0.2 Mins
- NLP BERT-large (3472 H100 GPUs) - 0.1 Mins
- Medical Imaging 3D U-Net (768 H100 GPUs) - 0.8 Mins
- Recommendation 3D U-Net (128 H100 GPUs) - 1 Min
不僅如此自去年提交以來,NVIDIA還實現了3.2倍的效能提升。 EOS-DFW superpod現在配備11,616個H100 GPU(2023年6月為3584個GPU),這些GPU使用快速NVIDIA 400G Quantum-2 InfiniBand互連進行互連。
NVIDIA也表示新的和改進的軟體堆疊有助於在GPT-3 175B等訓練工作負載中實現近乎完美的大規模擴展。為什麼這種擴充很重要,因為NVIDIA目前正在打造配備100,000到300,000個GPU的大型AI工廠。其中一個配備Hopper GPU的人工智慧工廠將於今年稍後上線,一座新的Blackwell工廠預計將於2025年投入使用。
但不僅僅是擴充效能變得更好,Hopper GPU也在升級。在最新的測試中,最新的全端優化現已將H100 GPU的效能再提升了27%,這可以透過多項新整合來實現,例如:
- 高度調優的FP8和新
- FP8感知分散式最佳化器
- 優化的cuDNN FlashAttention
- 改進數學和通信執行重疊
- 智慧GPU功率分配
- 在512 GPU規模下持續>900 TFLOPs/s/GPU
在文字到影像訓練效能方面,NVIDIA強調使用Hopper GPU在短短7個月內就實現了80%的效能提升。實現這一成長的最佳化包括全新CUDA、分散式最佳化器、最佳化卷積和GEMM。
轉向NVIDIA HGX H200 Hopper平台,新晶片能夠在 Llama 2 70B 微調中提供最快的性能,並打破MLPerf v4.0標準。 Hopper H200 GPU在Llama 2 70B微調效能方面比Intel Gaudi 2快3.2倍,在Llama 2 70B推理效能方面比Gaudi 2快4.7倍。所有GPU均使用8個加速器配置進行測試。
即使在涵蓋這些測試的同時,NVIDIA也在即將推出的軟體中預告H100和H200 GPU的效能將有更大的提升。
如果您認為NVIDIA製造了瘋狂的硬體,那麼他們的CUDA和軟體團隊是一個完全不同的團隊,他們不斷地年復一年地展示他們的工程和調優專業知識。
消息來源 |