找回密碼註冊
作者: sxs112.tw
查看: 4040
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    SAMSUNG T7 Shield 移動固態硬碟

    [*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

    GEX PRO 850W玩家開箱體驗分享活動

    卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

    體驗極速WiFi 7!MSI Roamii BE Lite Mesh

    第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

    極致效能 為遊戲而生 990 PRO SSD 玩家體驗

    [*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

    打印 上一主題 下一主題

    [顯示卡器] NVIDIA深入研究Blackwell基礎設施:第五代Tensor核心、第五代NVLINK和Spectrum-X詳細介紹

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    sxs112.tw 發表於 2024-8-27 22:25:36 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
    NVIDIA深入探討了其Blackwell AI平台以及它如何利用新的高頻寬介面來融合兩個GPU。
    NVIDIA-Blackwell-AI-Platform.jpg

    上週NVIDIA宣布將分享有關其Blackwell AI平台的更多訊息,同時分享Blackwell在資料中心啟動和運行的第一批影像。
    2024-08-27_15-01-30-scaled.jpg

    今天該公司展示了有關整個Blackwell平台的最新詳細訊息,該平台不包含一種晶片,而是使用多種不同的產品,例如:
    • Blackwell GPU
    • Grace CPU
    • NVLINK Switch Chip
    • Bluefield-3
    • ConnectX-7
    • ConnectX-8
    • Spectrum-4
    • Quantum-3

    2024-08-27_15-01-48-scaled.jpg

    整個NVIDIA Blackwell AI平台由400多個優化CUDA-X庫提供支援,可在Blackwell晶片上提供最佳性能。這些函式庫針對不同的應用領域,建立在長達十年的創新之上,堆疊在CUDA-X套件中。該庫支援不斷擴展的演算法,使其能夠對應下一代人工智慧模型的未來需求。
    2024-08-27_15-01-54-scaled.jpg

    那麼讓我們來談談Blackwell,該晶片有六個主要模組:有2080億個晶體管的AI Superchip、透過其Tensor Core支援FP4/FP6資料格式的Transformer Engine、有全性能加密和TEE的安全AI引擎,第五代NVLINK可擴展到576個AI GPU,有100%系統內自檢能力的RAS引擎和有800GB/s頻寬的解壓縮引擎。
    • AI Superchip - 2080億個電晶體(台積電4NP,>1600mm2)
    • Transformer引擎 -第五代Tensor Core(FP4、FP6、FP8資料格式)
    • 第五代NVLink -可擴充至576個 PU(1.8TB/s頻寬)
    • NV-HBI(NVIDIA高頻寬介面)- 10TB/s頻寬晶片間互連
    • RAS引擎 - 100%系統內自我檢測
    • 解壓縮引擎 - 800GB/s頻寬
    • 安全性AI -全性能加密和TEE

    2024-08-27_15-01-58-scaled.jpg

    NVIDIA Blackwell GPU本身有單一GPU中最高的AI運算、記憶體頻寬和互連頻寬。 GPU使用NV-HBI將兩個受Reticle-limited的GPU合併為一個GPU,我們稍後會介紹這一點。該晶片本身有2080億個電晶體,採用TSMC 4NP製程封裝,設計面積>1600mm2。 Blackwell AI GPU提供20 PetaFLOPS FP4 AI、8TB/s記憶體頻寬(HBM3e上有8個堆疊)、1.8TB/s雙向NVLINK頻寬以及與Grace CPU的高速NVLINK-C2C連結。
    2024-08-27_15-02-01-scaled.jpg

    NVIDIA的多晶片架構之旅始於Ampere。雖然不是傳統的MCM設計,但兩個GPU區塊透過使用高頻寬互連的方式進行融合,使得該晶片與單晶片實現沒有任何區別。
    2024-08-27_15-02-06-scaled.jpg

    這種設計在接下來的幾代中得到了進一步完善,在Blackwell的幫助下該公司轉向了2晶片實施。這些晶片使用NV-HBI(NVIDIA高頻寬介面)進行融合,該介面在單邊緣提供10TB/s的雙向頻寬,每位元消耗的能量非常低,在GPU之間提供一致的鏈接,既有出色的性能,又有良好的性能。
    2024-08-27_15-02-14-scaled.jpg

    Blackwell GPU架構還配備了第五代Tensor Core架構,該架構配備了新的Micro-Tensor Scaled FP格式,例如FP4、FP6和FP8。這些Micro-Tensor比例因子應用於固定長度的向量,能夠將元素映射到固定的比例因子,並提供更寬的FP範圍、放大的頻寬、更低的功耗和更細粒度的量化。
    2024-08-27_15-02-18-1456x819.jpg


    2024-08-27_15-02-21-1456x819.jpg


    2024-08-27_15-02-24-1456x819.jpg


    2024-08-27_15-02-27-1456x819.jpg

    看看第五代Tensor Core的效能影響,與Hopper相比,每種現有資料格式(FP16、BF16、FP8)每個SM每個時脈的速度提高了2倍,而FP6的速度比Hopper的FP8提高了2倍,FP4的速度提高了4倍超過Hopper的FP8格式。除了新格式之外Blackwell AI GPU還有比Hopper晶片更高的工作頻率和SM數量。

    Blackwell的最新功能之一是NVIDIA Quasar量化,它採用FP4等低精度格式,並使用最佳化的函式庫、硬體和軟體Transformer Engine以及低精度數值演算法將其轉換為高精度資料。與BF16相比,Quantized FP4在LLM中提供相同的MMLU分數,並且在Nemotron-4 15B甚至340B模型中提供相同的精度。

    NVIDIA Blackwell匯集了多個晶片、系統和NVIDIA CUDA軟體,為跨用例、產業和國家的下一代AI提供支援。
    • NVIDIA GB200 NVL7 是一種多節點、水冷、機架級解決方案,連接72個Blackwell GPU和36個Grace CPU,提高了AI系統設計的標準。
    • NVLink互連技術提供全方位GPU通信,為生成式AI實現創紀錄的高吞吐量和低延遲推理。
    • NVIDIA Quasar量化系統突破物理極限,加速AI運算。
    • NVIDIA研究人員正在建立AI模型,以協助建立AI處理器。

    2024-08-27_15-02-33-scaled.jpg

    NVIDIA Blackwell AI平台的另一個重要方面是第五代NVLINK,它使用18個100GB/s頻寬的NVLINK連接整個平台,每個1.8TB/s頻寬和x2@200 Gbps-PAM4。
    2024-08-27_15-02-36-scaled.jpg

    還有第四代NVLINK開關晶片,配置在NVLINK開關托盤內,晶片尺寸超過800mm2 (TSMC 4NP)。這些晶片將NVLINK擴展至GB200 NVL72機架上的72個GPU,透過72個連接埠提供7.2TB/s的全對全雙向頻寬以及3.6TFLOP的SHARP網路內運算。此托盤有兩個這樣的交換機,組合頻寬為14.4TB/s。
    2024-08-27_15-02-09-scaled.jpg

    所有這些都集中在NVIDIA GB200 Grace Blackwell Superchip中,這是一個有1個Grace CPU和2個Blackwell GPU(四個GPU晶片)的AI運算引擎。該板有 NVLINK-C2C互連功能,並提供40 PetaFLOPS的FP4和20 PetaFLOPS的FP8計算。一個Grace Blackwell托盤裝有2個Grace CPU(每個72個核心)和4個Blackwell GPU(8個GPU晶片)。
    2024-08-27_15-02-40-1456x819.jpg


    2024-08-27_15-02-42-1456x819.jpg

    然後NVLINK Spine用於GB200 NVL72和NVL36伺服器,這些伺服器提供多達36個Grace CPU、72個Blackwell GPU,所有這些都使用NVLINK Switch機架完全連接。該伺服器提供720 PetaFLOPs訓練能力、1440 PetaFLOPs推理能力,支援高達27兆個參數模型大小,頻寬高達130TB/s(多節點)。
    2024-08-27_15-02-45-1456x819.jpg


    2024-08-27_15-02-49-1456x819.jpg


    2024-08-27_15-02-53-1456x819.jpg


    2024-08-27_15-02-56-1456x819.jpg


    2024-08-27_15-02-59-1456x819.jpg

    最後還有Spectrum-X,它是世界上第一個專為AI打造的乙太網路結構,由兩塊晶片組成:有1000億個電晶體、51.2T頻寬、64個800G和128個400G孔的Spectrum -4,以及有16個Arm的Bluefield-3 DPU A78核心、256執行緒和400Gb/s乙太網路。這兩款AI乙太網路晶片整合在Spectrum-X800機架中,這是一個用於雲端AI工作負載的點到點平台。
    2024-08-27_15-03-04-scaled.jpg

    結合起來NVIDIA的Blackwell AI平台的即時推理能力比Hopper提高了30倍,同時能源效率提高了25倍。但NVIDIA才剛開始,繼Blackwell之後,NVIDIA團隊也計劃在2025年推出有更高運算密度和記憶體的Blackwell Ultra,隨後在2026-2027年推出有HBM4和全新架構的Rubin和Rubin Ultra 。整個CPU、網路和互連生態系統也將在2025年至2027年期間獲得重大更新。

    消息來源
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2024-12-22 15:17 , Processed in 0.086322 second(s), 33 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表