NVIDIA Blackwell已在資料中心啟動並執行：NVLINK升級至1.4TB/s、更多GPU詳細資訊

sxs112.tw · 發表於 2024-8-24 19:11:43

NVIDIA駁斥了Blackwell延遲的傳言，並準備分享更多有關現已在資料中心運作的資料中心Goliath的資訊。

NVIDIA的Blackwell現已啟動並投入營運，今年將登陸全球資料中心，更多詳細資訊將於下週在Hot Chips上分享，隨著Hot Chips將於下週開始，NVIDIA將提前向我們介紹他們在活動期間計劃的各種會議中的預期內容。

鑑於最近有關Blackwell延遲推出的謠言激增，該公司透過展示Blackwell在其一個數據中心的啟動和執行來拉開了新聞發布會的序幕，正如該公司之前已經聲明的那樣Blackwell正在啟動軌道坡道並將於今年稍後運送給客戶。因此對於任何人來說Blackwell有某種缺陷或問題並且今年不會進入市場，這並沒有太大的影響力。

但Blackwell不僅僅是一款晶片，它還是一個平台。就像Hopper一樣，Blackwell涵蓋了針對資料中心、雲端和人工智慧客戶的大量設計，並且每個Blackwell產品都由各種晶片組成。這些包括：

Blackwell GPU
Grace CPU
NVLINK Switch Chip
Bluefield-3
ConnectX-7
ConnectX-8
Spectrum-4
Quantum-3

NVIDIA也分享了Blackwell系列中的全新圖片。這些是第一批分享的Blackwell圖片，展示了設計下一代資料中心平台所需的工程專業知識。

Blackwell世代旨在滿足現代人工智慧需求，並在大型語言模型（例如Meta的405B Llama-3.1）中提供出色的效能。隨著LLM的規模隨著參數大小的增大而增長，資料中心將需要更多的計算和更低的延遲。現在您可以製作一個具有大量記憶體的大型GPU，並將整個模型放在該晶片上，但多個GPU是在令牌生成中實現較低延遲的要求。

多GPU推理方法將運算分散到多個GPU上以實現低延遲和高吞吐量，但採用多GPU路線也有其複雜性。多GPU環境中的每個GPU都必須將運算結果傳送到每一層的每個其他GPU，這帶來了高頻寬GPU到GPU通訊的需求。

NVIDIA的解決方案已經以NVSwitch的形式適用於多GPU。憑藉900GB/s的互連（結構）頻寬，Hopper NVLINK交換器的推理吞吐量比傳統GPU到GPU方法高出 1.5倍。 NVLINK Switch無需從一個GPU到另一個GPU進行多個HOPS，而是讓GPU只需要進行1個HOP到NVSwitch，另一個HOP直接到輔助GPU。

談到GPU本身，NVIDIA分享了Blackwell GPU本身的一些速度和回饋，如下所示：

Two reticle-limited GPUs merged into one package
208B transistors in TSMC 4NP
20 Peta FLOPS FP4 AI
8 TB/s Memory Bandwidth
8-Site HBM3e memory
1.8 TB/s Bidirectional NVLINK Bandwidth
High-Speed NVLINK-C2C Link to Grace CPU

打造十字線限制晶片的一些優點包括：

最高通訊密度
最低延遲
最佳能源效率

NVIDIA透過Blackwell推出了速度更快的NVLINK交換機，可將結構頻寬加倍至1.8TB/s。 NVLINK交換器本身是一個採用TSMC 4NP製程的800mm2晶片，並將 NVLINK擴展到GB200 NVL72機架中的72個GPU。該晶片透過72個連接埠提供7.2TB/s的全對全雙向頻寬，並有3.6 TFLOP的網內運算能力。 NVLINK交換器配備兩台這樣的交換機，提供高達14.4TB/s的總頻寬。

NVIDIA為Hot Chips計畫的教學課程之一名為水冷散熱提升效能和效率。這些新的水冷解決方案將被GB200、Grace Blackwell GB200和B200系統採用。

將要討論的水冷散熱方法之一是使用溫水直接散熱晶片，這種方法可以提高散熱效率、降低營運成本、延長IT伺服器壽命並實現熱再利用。由於這些不是需要電力來散熱水冷的傳統散熱器，因此使用溫水方法可以將資料中心設施的電力成本降低高達28%。

NVIDIA也分享了世界上第一個使用FP4運算製作的生成式AI影像。 FP4量化模型可以以更快的速度產生與FP16模型非常相似的4位兔子影像。該影像是由MLPerf 在穩定擴散中使用Blackwell產生的。現在降低精度（從FP16到FP4）面臨的挑戰是損失了一些精度。

兔子的方向存在一些差異，但大多數情況下，準確性得到保留，圖像的品質仍然很好。 FP4精度的利用是NVIDIA Quasar量化系統和研究的一部分，該系統和研究將降低精度的AI計算推向新的水平。

如前所述NVIDIA正在利用AI來打造AI晶片。生成式人工智慧能力用於產生最佳化的Verilog程式碼，Verilog程式碼是一種硬體描述語言，以程式碼的形式描述電路，用於Blackwell等處理器的設計和驗證。該語言還有助於加速下一代晶片架構，推動NVIDIA實現其年度節奏。

NVIDIA預計將在明年推出Blackwell Ultra GPU，該GPU有288GB HBM3e記憶體、更高的運算密度，隨後將分別在2026年和2027年推出Rubin / Rubin Ultra GPU 。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

GEX PRO 850W玩家開箱體驗分享活動

體驗極速WiFi 7！MSI Roamii BE Lite Mesh

極致效能為遊戲而生 990 PRO SSD 玩家體驗

Micron Crucial PRO D5 6400超頻版玩家開

[業界新聞] NVIDIA Blackwell已在資料中心啟動並執行：NVLINK升級至1.4TB/s、更多GPU詳細資訊