sxs112.tw 發表於 2024-8-27 22:25:36

NVIDIA深入研究Blackwell基礎設施:第五代Tensor核心、第五代NVLINK和Spectrum-X詳細介紹

NVIDIA深入探討了其Blackwell AI平台以及它如何利用新的高頻寬介面來融合兩個GPU。

上週NVIDIA宣布將分享有關其Blackwell AI平台的更多訊息,同時分享Blackwell在資料中心啟動和運行的第一批影像。

今天該公司展示了有關整個Blackwell平台的最新詳細訊息,該平台不包含一種晶片,而是使用多種不同的產品,例如:

[*]Blackwell GPU
[*]Grace CPU
[*]NVLINK Switch Chip
[*]Bluefield-3
[*]ConnectX-7
[*]ConnectX-8
[*]Spectrum-4
[*]Quantum-3


整個NVIDIA Blackwell AI平台由400多個優化CUDA-X庫提供支援,可在Blackwell晶片上提供最佳性能。這些函式庫針對不同的應用領域,建立在長達十年的創新之上,堆疊在CUDA-X套件中。該庫支援不斷擴展的演算法,使其能夠對應下一代人工智慧模型的未來需求。

那麼讓我們來談談Blackwell,該晶片有六個主要模組:有2080億個晶體管的AI Superchip、透過其Tensor Core支援FP4/FP6資料格式的Transformer Engine、有全性能加密和TEE的安全AI引擎,第五代NVLINK可擴展到576個AI GPU,有100%系統內自檢能力的RAS引擎和有800GB/s頻寬的解壓縮引擎。

[*]AI Superchip - 2080億個電晶體(台積電4NP,>1600mm2)
[*]Transformer引擎 -第五代Tensor Core(FP4、FP6、FP8資料格式)
[*]第五代NVLink -可擴充至576個 PU(1.8TB/s頻寬)
[*]NV-HBI(NVIDIA高頻寬介面)- 10TB/s頻寬晶片間互連
[*]RAS引擎 - 100%系統內自我檢測
[*]解壓縮引擎 - 800GB/s頻寬
[*]安全性AI -全性能加密和TEE


NVIDIA Blackwell GPU本身有單一GPU中最高的AI運算、記憶體頻寬和互連頻寬。 GPU使用NV-HBI將兩個受Reticle-limited的GPU合併為一個GPU,我們稍後會介紹這一點。該晶片本身有2080億個電晶體,採用TSMC 4NP製程封裝,設計面積>1600mm2。 Blackwell AI GPU提供20 PetaFLOPS FP4 AI、8TB/s記憶體頻寬(HBM3e上有8個堆疊)、1.8TB/s雙向NVLINK頻寬以及與Grace CPU的高速NVLINK-C2C連結。

NVIDIA的多晶片架構之旅始於Ampere。雖然不是傳統的MCM設計,但兩個GPU區塊透過使用高頻寬互連的方式進行融合,使得該晶片與單晶片實現沒有任何區別。

這種設計在接下來的幾代中得到了進一步完善,在Blackwell的幫助下該公司轉向了2晶片實施。這些晶片使用NV-HBI(NVIDIA高頻寬介面)進行融合,該介面在單邊緣提供10TB/s的雙向頻寬,每位元消耗的能量非常低,在GPU之間提供一致的鏈接,既有出色的性能,又有良好的性能。

Blackwell GPU架構還配備了第五代Tensor Core架構,該架構配備了新的Micro-Tensor Scaled FP格式,例如FP4、FP6和FP8。這些Micro-Tensor比例因子應用於固定長度的向量,能夠將元素映射到固定的比例因子,並提供更寬的FP範圍、放大的頻寬、更低的功耗和更細粒度的量化。







看看第五代Tensor Core的效能影響,與Hopper相比,每種現有資料格式(FP16、BF16、FP8)每個SM每個時脈的速度提高了2倍,而FP6的速度比Hopper的FP8提高了2倍,FP4的速度提高了4倍超過Hopper的FP8格式。除了新格式之外Blackwell AI GPU還有比Hopper晶片更高的工作頻率和SM數量。

Blackwell的最新功能之一是NVIDIA Quasar量化,它採用FP4等低精度格式,並使用最佳化的函式庫、硬體和軟體Transformer Engine以及低精度數值演算法將其轉換為高精度資料。與BF16相比,Quantized FP4在LLM中提供相同的MMLU分數,並且在Nemotron-4 15B甚至340B模型中提供相同的精度。

NVIDIA Blackwell匯集了多個晶片、系統和NVIDIA CUDA軟體,為跨用例、產業和國家的下一代AI提供支援。

[*]NVIDIA GB200 NVL7 是一種多節點、水冷、機架級解決方案,連接72個Blackwell GPU和36個Grace CPU,提高了AI系統設計的標準。
[*]NVLink互連技術提供全方位GPU通信,為生成式AI實現創紀錄的高吞吐量和低延遲推理。
[*]NVIDIA Quasar量化系統突破物理極限,加速AI運算。
[*]NVIDIA研究人員正在建立AI模型,以協助建立AI處理器。


NVIDIA Blackwell AI平台的另一個重要方面是第五代NVLINK,它使用18個100GB/s頻寬的NVLINK連接整個平台,每個1.8TB/s頻寬和x2@200 Gbps-PAM4。

還有第四代NVLINK開關晶片,配置在NVLINK開關托盤內,晶片尺寸超過800mm2 (TSMC 4NP)。這些晶片將NVLINK擴展至GB200 NVL72機架上的72個GPU,透過72個連接埠提供7.2TB/s的全對全雙向頻寬以及3.6TFLOP的SHARP網路內運算。此托盤有兩個這樣的交換機,組合頻寬為14.4TB/s。

所有這些都集中在NVIDIA GB200 Grace Blackwell Superchip中,這是一個有1個Grace CPU和2個Blackwell GPU(四個GPU晶片)的AI運算引擎。該板有 NVLINK-C2C互連功能,並提供40 PetaFLOPS的FP4和20 PetaFLOPS的FP8計算。一個Grace Blackwell托盤裝有2個Grace CPU(每個72個核心)和4個Blackwell GPU(8個GPU晶片)。



然後NVLINK Spine用於GB200 NVL72和NVL36伺服器,這些伺服器提供多達36個Grace CPU、72個Blackwell GPU,所有這些都使用NVLINK Switch機架完全連接。該伺服器提供720 PetaFLOPs訓練能力、1440 PetaFLOPs推理能力,支援高達27兆個參數模型大小,頻寬高達130TB/s(多節點)。









最後還有Spectrum-X,它是世界上第一個專為AI打造的乙太網路結構,由兩塊晶片組成:有1000億個電晶體、51.2T頻寬、64個800G和128個400G孔的Spectrum -4,以及有16個Arm的Bluefield-3 DPU A78核心、256執行緒和400Gb/s乙太網路。這兩款AI乙太網路晶片整合在Spectrum-X800機架中,這是一個用於雲端AI工作負載的點到點平台。

結合起來NVIDIA的Blackwell AI平台的即時推理能力比Hopper提高了30倍,同時能源效率提高了25倍。但NVIDIA才剛開始,繼Blackwell之後,NVIDIA團隊也計劃在2025年推出有更高運算密度和記憶體的Blackwell Ultra,隨後在2026-2027年推出有HBM4和全新架構的Rubin和Rubin Ultra 。整個CPU、網路和互連生態系統也將在2025年至2027年期間獲得重大更新。

消息來源
頁: [1]
查看完整版本: NVIDIA深入研究Blackwell基礎設施:第五代Tensor核心、第五代NVLINK和Spectrum-X詳細介紹