NVIDIA已正式推出其下一代Blackwell GPU架構,與Hopper H100 GPU相比,其效能提升高達5倍。
NVIDIA已正式公佈其代號為Blackwell的下一代AI和Tensor Core GPU架構的完整細節。正如預期的那樣Blackwell GPU是第一個採用NVIDIA首個MCM設計的 GPU,該設計將在同一個晶片上整合兩個GPU。
- 世界上最強大的晶片 — Blackwell架構GPU包含2080億個電晶體,採用客製化的4NP TSMC製程製造,有Two-reticle limit GPU晶片,透過10TB/秒的晶片到晶片鏈路連接成單一統一的GPU 。
- 第二代Transformer引擎 — 在新的微張量縮放支援和整合到NVIDIA TensorRT™-LLM和NeMo Megatron框架中的NVIDIA先進動態範圍管理演算法的推動下,Blackwell將透過新的4位元浮點AI支援雙倍的計算和模型大小推理能力。
- 第五代NVLink — 為了加速數萬億參數和混合專家AI模型的性能,最新的NVIDIA NVLink® 為每個GPU提供了突破性的1.8TB/s雙向吞吐量,確保多達576個GPU之間的無縫高速通訊對於最複雜的LLM。
- RAS引擎 — Blackwell支援的GPU包含一個專用引擎,可實現可靠性、可用性和可服務性。此外Blackwell架構還增加了晶片級功能,利用採用人工智慧的預防性維護來運行診斷和預測可靠性問題。這可以最大限度地延長系統正常運行時間並提高大規模人工智慧使用的彈性,使其能夠連續運行數週甚至數月,並降低營運成本。
- 安全人工智慧 —先進的機密運算功能可在不影響效能的情況下保護人工智慧模型和客戶數據,並支援新的本機介面加密協議,這對於醫療保健和金融服務等隱私敏感行業至關重要。
- 解壓縮引擎 - 專用解壓縮引擎支援最新格式,加速資料庫查詢,以提供資料分析和資料科學的最高效能。未來幾年公司每年花費數百億美元的資料處理將越來越多地由GPU加速。
深入了解細節,NVIDIA Blackwell GPU的每個運算晶片上總共有1040億個電晶體,這些晶片是在台積電4NP製程上製造。有趣的是Synopsys和台積電都利用 NVIDIA的CuLitho技術來生產Blackwell GPU,這使得每顆晶片都加速了這些新一代AI加速器晶片的製造。B100 GPU配備10TB/s高頻寬匯流排,可實現超快速的晶片間互連。這些GPU統一為同一封裝上的一顆晶片,提供多達2,080億個電晶體和完整的GPU快取一致性。
與Hopper相比,NVIDIA Blackwell GPU提供了1,280億個以上的電晶體、5倍的AI效能(每晶片提升至20 PetaFlops)以及4倍的On Die記憶體。GPU本身與8個 HBM3e相結合,有世界上最快的記憶體解決方案,透過8192位元匯流排介面提供8TB/s的記憶體頻寬和高達192GB的HBM3e 憶體。為了快速總結與Hopper的效能數據,您將獲得:
- 20 PFLOPS FP8 (2.5x Hopper)
- 20 PFLOPS FP6 (2.5x Hopper)
- 40 PFLOPS FP4 (5.0x Hopper)
- 740B Parameters (6.0x Hopper)
- 34T Parameters/sec (5.0x Hopper)
- 7.2 TB/s NVLINK (4.0x Hopper)
NVIDIA將提供Blackwell GPU作為一個完整的平台,將其中兩個GPU(四個運算晶片)與單一Grace CPU(72個ARM Neoverse V2 CPU核心)結合。GPU之間以及Grace CPU之間將使用900GB/s NVLINK協定互連。
首先我們有NVIDIA Blackwell B200 GPU。這是兩款Blackwell晶片中的第一款,將被採用到SXM模組、PCIe AIC和Superchip平台等各種設計中。B200 GPU將是首款採用小晶片設計的NVIDIA GPU,有兩個採用台積電4nm製程的運算晶片。
MCM(多晶片模組)在NVIDIA方面已經出現了很長時間,隨著該公司試圖解決與下一代製程相關的挑戰(例如良率和成本),它終於出現了。晶片提供了一種可行的替代方案,NVIDIA仍然可以在不影響其供應或成本的情況下實現更快的一代比一代性能。
NVIDIA Blackwell B200 GPU將是一款怪物晶片。它總共包含160個SM,20,480個核心。GPU將採用最新的NVLINK互連技術,支援相同的8GPU架構和400GbE網路交換器。它也將非常耗電,峰值TDP為700W,儘管這也與H100和H200晶片相同。總結一下這顆晶片:
- TMSC 4NP製程
- 多晶片封裝GPU
- 1-GPU 1040億個電晶體
- 2-GPU 2080億個電晶體
- 160個SM(20,480個核心)
- 8個HBM
- 192GB HBM3e記憶體
- 8TB/秒記憶體頻寬
- 8192位元記憶體匯流排
- 8層堆疊HBM3e
- PCIe 6.0支援
- 700W TDP(峰值)
在記憶體方面,Blackwell B200 GPU將配備高達192GB的HBM3e記憶體。這將在八個8-hi模組堆疊中實現,每個模組在8192位元寬匯流排介面上有24GB VRAM 容量。這將比H100 80GB GPU增加2.4倍,從而使晶片能夠運行更大的LLM。
NVIDIA Blackwell B200及其各自的平台將開闢人工智慧運算的新時代,並為AMD和Intel尚未廣泛採用的最新晶片產品帶來殘酷的競爭。隨著Blackwell的亮相,NVIDIA再次鞏固了自己作為AI市場主導力量的地位。
消息來源 |