NVIDIA深入研究Blackwell基礎設施：第五代Tensor核心、第五代NVLINK和Spectrum-X詳細介紹

sxs112.tw · 發表於 2024-8-27 22:25:36

NVIDIA深入探討了其Blackwell AI平台以及它如何利用新的高頻寬介面來融合兩個GPU。

上週NVIDIA宣布將分享有關其Blackwell AI平台的更多訊息，同時分享Blackwell在資料中心啟動和運行的第一批影像。

今天該公司展示了有關整個Blackwell平台的最新詳細訊息，該平台不包含一種晶片，而是使用多種不同的產品，例如：

Blackwell GPU
Grace CPU
NVLINK Switch Chip
Bluefield-3
ConnectX-7
ConnectX-8
Spectrum-4
Quantum-3

整個NVIDIA Blackwell AI平台由400多個優化CUDA-X庫提供支援，可在Blackwell晶片上提供最佳性能。這些函式庫針對不同的應用領域，建立在長達十年的創新之上，堆疊在CUDA-X套件中。該庫支援不斷擴展的演算法，使其能夠對應下一代人工智慧模型的未來需求。

那麼讓我們來談談Blackwell，該晶片有六個主要模組：有2080億個晶體管的AI Superchip、透過其Tensor Core支援FP4/FP6資料格式的Transformer Engine、有全性能加密和TEE的安全AI引擎，第五代NVLINK可擴展到576個AI GPU，有100%系統內自檢能力的RAS引擎和有800GB/s頻寬的解壓縮引擎。

AI Superchip - 2080億個電晶體（台積電4NP，>1600mm2）
Transformer引擎 -第五代Tensor Core（FP4、FP6、FP8資料格式）
第五代NVLink -可擴充至576個 PU（1.8TB/s頻寬）
NV-HBI（NVIDIA高頻寬介面）- 10TB/s頻寬晶片間互連
RAS引擎 - 100%系統內自我檢測
解壓縮引擎 - 800GB/s頻寬
安全性AI -全性能加密和TEE

NVIDIA Blackwell GPU本身有單一GPU中最高的AI運算、記憶體頻寬和互連頻寬。 GPU使用NV-HBI將兩個受Reticle-limited的GPU合併為一個GPU，我們稍後會介紹這一點。該晶片本身有2080億個電晶體，採用TSMC 4NP製程封裝，設計面積>1600mm2。 Blackwell AI GPU提供20 PetaFLOPS FP4 AI、8TB/s記憶體頻寬（HBM3e上有8個堆疊）、1.8TB/s雙向NVLINK頻寬以及與Grace CPU的高速NVLINK-C2C連結。

NVIDIA的多晶片架構之旅始於Ampere。雖然不是傳統的MCM設計，但兩個GPU區塊透過使用高頻寬互連的方式進行融合，使得該晶片與單晶片實現沒有任何區別。

這種設計在接下來的幾代中得到了進一步完善，在Blackwell的幫助下該公司轉向了2晶片實施。這些晶片使用NV-HBI（NVIDIA高頻寬介面）進行融合，該介面在單邊緣提供10TB/s的雙向頻寬，每位元消耗的能量非常低，在GPU之間提供一致的鏈接，既有出色的性能，又有良好的性能。

Blackwell GPU架構還配備了第五代Tensor Core架構，該架構配備了新的Micro-Tensor Scaled FP格式，例如FP4、FP6和FP8。這些Micro-Tensor比例因子應用於固定長度的向量，能夠將元素映射到固定的比例因子，並提供更寬的FP範圍、放大的頻寬、更低的功耗和更細粒度的量化。

看看第五代Tensor Core的效能影響，與Hopper相比，每種現有資料格式（FP16、BF16、FP8）每個SM每個時脈的速度提高了2倍，而FP6的速度比Hopper的FP8提高了2倍，FP4的速度提高了4倍超過Hopper的FP8格式。除了新格式之外Blackwell AI GPU還有比Hopper晶片更高的工作頻率和SM數量。

Blackwell的最新功能之一是NVIDIA Quasar量化，它採用FP4等低精度格式，並使用最佳化的函式庫、硬體和軟體Transformer Engine以及低精度數值演算法將其轉換為高精度資料。與BF16相比，Quantized FP4在LLM中提供相同的MMLU分數，並且在Nemotron-4 15B甚至340B模型中提供相同的精度。

NVIDIA Blackwell匯集了多個晶片、系統和NVIDIA CUDA軟體，為跨用例、產業和國家的下一代AI提供支援。

NVIDIA GB200 NVL7 是一種多節點、水冷、機架級解決方案，連接72個Blackwell GPU和36個Grace CPU，提高了AI系統設計的標準。
NVLink互連技術提供全方位GPU通信，為生成式AI實現創紀錄的高吞吐量和低延遲推理。
NVIDIA Quasar量化系統突破物理極限，加速AI運算。
NVIDIA研究人員正在建立AI模型，以協助建立AI處理器。

NVIDIA Blackwell AI平台的另一個重要方面是第五代NVLINK，它使用18個100GB/s頻寬的NVLINK連接整個平台，每個1.8TB/s頻寬和x2@200 Gbps-PAM4。

還有第四代NVLINK開關晶片，配置在NVLINK開關托盤內，晶片尺寸超過800mm2 (TSMC 4NP)。這些晶片將NVLINK擴展至GB200 NVL72機架上的72個GPU，透過72個連接埠提供7.2TB/s的全對全雙向頻寬以及3.6TFLOP的SHARP網路內運算。此托盤有兩個這樣的交換機，組合頻寬為14.4TB/s。

所有這些都集中在NVIDIA GB200 Grace Blackwell Superchip中，這是一個有1個Grace CPU和2個Blackwell GPU（四個GPU晶片）的AI運算引擎。該板有 NVLINK-C2C互連功能，並提供40 PetaFLOPS的FP4和20 PetaFLOPS的FP8計算。一個Grace Blackwell托盤裝有2個Grace CPU（每個72個核心）和4個Blackwell GPU（8個GPU晶片）。

然後NVLINK Spine用於GB200 NVL72和NVL36伺服器，這些伺服器提供多達36個Grace CPU、72個Blackwell GPU，所有這些都使用NVLINK Switch機架完全連接。該伺服器提供720 PetaFLOPs訓練能力、1440 PetaFLOPs推理能力，支援高達27兆個參數模型大小，頻寬高達130TB/s（多節點）。

最後還有Spectrum-X，它是世界上第一個專為AI打造的乙太網路結構，由兩塊晶片組成：有1000億個電晶體、51.2T頻寬、64個800G和128個400G孔的Spectrum -4，以及有16個Arm的Bluefield-3 DPU A78核心、256執行緒和400Gb/s乙太網路。這兩款AI乙太網路晶片整合在Spectrum-X800機架中，這是一個用於雲端AI工作負載的點到點平台。

結合起來NVIDIA的Blackwell AI平台的即時推理能力比Hopper提高了30倍，同時能源效率提高了25倍。但NVIDIA才剛開始，繼Blackwell之後，NVIDIA團隊也計劃在2025年推出有更高運算密度和記憶體的Blackwell Ultra，隨後在2026-2027年推出有HBM4和全新架構的Rubin和Rubin Ultra 。整個CPU、網路和互連生態系統也將在2025年至2027年期間獲得重大更新。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

體驗極速WiFi 7！MSI Roamii BE Lite Mesh

極致效能為遊戲而生 990 PRO SSD 玩家體驗

Micron Crucial PRO D5 6400超頻版玩家開

O11 VISION COMPACT 玩家開箱體驗分享活動

[顯示卡器] NVIDIA深入研究Blackwell基礎設施：第五代Tensor核心、第五代NVLINK和Spectrum-X詳細介紹