找回密碼註冊
作者: sxs112.tw
查看: 4549
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    SAMSUNG T7 Shield 移動固態硬碟

    [*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

    GEX PRO 850W玩家開箱體驗分享活動

    卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

    體驗極速WiFi 7!MSI Roamii BE Lite Mesh

    第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

    極致效能 為遊戲而生 990 PRO SSD 玩家體驗

    [*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

    打印 上一主題 下一主題

    [顯示卡器] NVIDIA證明了為什麼它是AI老大:橫掃所有MLPerf訓練,在GPT-175B中實現近乎完美

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    sxs112.tw 發表於 2024-6-13 09:25:46 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
    NVIDIA在MLPerf中再次展現了其實力,在GPT-3 175B等大型模型中使用Hopper H100和H200 GPU實現了近100%的效率和巨大提升。

    說到人工智慧就不能不提到NVIDIA,該公司透過最新的MLPerf Training V4.0測試提交再次證明了這一點,在所有領域都佔據主導地位。 NVIDIA表示AI運算需求持續以爆炸性速度成長,自從Transformer推出以來,我們看到需求在短短2年內成長了256倍。
    2024-06-12_19-14-01.png

    另一方面是性能,性能越高,為業務帶來的投資報酬率(ROI)就越高。 NVIDIA分享了三個市場以及每個市場中效能的重要性。
    2024-06-12_19-14-12.png

    首先是訓練,需要有更聰明、訓練速度更快的模式。第二個是推理,其中包括互動式使用者體驗,其中包括ChatGPT之類的內容,使用者希望對他們剛剛輸入的查詢得到即時回應。 NVIDIA最近在財報電話會議上提到LLM服務提供者在4年內每投資1美元就有機會獲得7美元的收入,這對企業來說是相當巨大的。
    2024-06-12_19-14-20.png

    那麼NVIDIA在最新的MLPerf Training v4.0效能測試方面表現如何,他們打破了他們已經設定的每個效能標準,同時創造了五項新的世界紀錄。
    2024-06-12_19-14-34.png

    數字如下:
    • Graph Neural Network R-GAT (512 H100 GPUs) - 1.1 Mins
    • LLM Fine-Tuning Llama 2 70B-LoRA (1024 H100 GPUs) - 1.5 Mins
    • LLM GPT-3 175B (11,616 H100 GPUs) - 3.4 Mins
    • Text-To-Image Stable Diffusion v2 (1024 H100 GPUs) - 1.4 Mins
    • Object Detection RetinaNet (2528 H100 GPUs) - 0.8 Mins
    • Image Classification ResNet-50 (3584 H100 GPUs) 0.2 Mins
    • NLP BERT-large (3472 H100 GPUs) - 0.1 Mins
    • Medical Imaging 3D U-Net (768 H100 GPUs) - 0.8 Mins
    • Recommendation 3D U-Net (128 H100 GPUs) - 1 Min

    不僅如此自去年提交以來,NVIDIA還實現了3.2倍的效能提升。 EOS-DFW superpod現在配備11,616個H100 GPU(2023年6月為3584個GPU),這些GPU使用快速NVIDIA 400G Quantum-2 InfiniBand互連進行互連。
    2024-06-12_19-14-42-1456x809.png


    2024-06-12_19-15-00-1456x809.png


    2024-06-12_19-15-08-1456x809.png

    NVIDIA也表示新的和改進的軟體堆疊有助於在GPT-3 175B等訓練工作負載中實現近乎完美的大規模擴展。為什麼這種擴充很重要,因為NVIDIA目前正在打造配備100,000到300,000個GPU的大型AI工廠。其中一個配備Hopper GPU的人工智慧工廠將於今年稍後上線,一座新的Blackwell工廠預計將於2025年投入使用。
    2024-06-12_19-14-53.png

    但不僅僅是擴充效能變得更好,Hopper GPU也在升級。在最新的測試中,最新的全端優化現已將H100 GPU的效能再提升了27%,這可以透過多項新整合來實現,例如:
    • 高度調優的FP8和新
    • FP8感知分散式最佳化器
    • 優化的cuDNN FlashAttention
    • 改進數學和通信執行重疊
    • 智慧GPU功率分配
    • 在512 GPU規模下持續>900 TFLOPs/s/GPU

    2024-06-12_19-15-16.png

    在文字到影像訓練效能方面,NVIDIA強調使用Hopper GPU在短短7個月內就實現了80%的效能提升。實現這一成長的最佳化包括全新CUDA、分散式最佳化器、最佳化卷積和GEMM。
    2024-06-12_19-15-25.png

    轉向NVIDIA HGX H200 Hopper平台,新晶片能夠在 Llama 2 70B 微調中提供最快的性能,並打破MLPerf v4.0標準。 Hopper H200 GPU在Llama 2 70B微調效能方面比Intel Gaudi 2快3.2倍,在Llama 2 70B推理效能方面比Gaudi 2快4.7倍。所有GPU均使用8個加速器配置進行測試。
    2024-06-12_19-15-33.png

    即使在涵蓋這些測試的同時,NVIDIA也在即將推出的軟體中預告H100和H200 GPU的效能將有更大的提升。
    2024-06-12_19-15-42.png

    如果您認為NVIDIA製造了瘋狂的硬體,那麼他們的CUDA和軟體團隊是一個完全不同的團隊,他們不斷地年復一年地展示他們的工程和調優專業知識。

    消息來源
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2024-12-22 14:39 , Processed in 0.082765 second(s), 33 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表