NVIDIA駁斥了Blackwell延遲的傳言,並準備分享更多有關現已在資料中心運作的資料中心Goliath的資訊。
NVIDIA的Blackwell現已啟動並投入營運,今年將登陸全球資料中心,更多詳細資訊將於下週在Hot Chips上分享,隨著Hot Chips將於下週開始,NVIDIA將提前向我們介紹他們在活動期間計劃的各種會議中的預期內容。
鑑於最近有關Blackwell延遲推出的謠言激增,該公司透過展示Blackwell在其一個數據中心的啟動和執行來拉開了新聞發布會的序幕,正如該公司之前已經聲明的那樣Blackwell正在啟動軌道坡道並將於今年稍後運送給客戶。因此對於任何人來說Blackwell有某種缺陷或問題並且今年不會進入市場,這並沒有太大的影響力。
但Blackwell不僅僅是一款晶片,它還是一個平台。就像Hopper一樣,Blackwell涵蓋了針對資料中心、雲端和人工智慧客戶的大量設計,並且每個Blackwell產品都由各種晶片組成。這些包括:
- Blackwell GPU
- Grace CPU
- NVLINK Switch Chip
- Bluefield-3
- ConnectX-7
- ConnectX-8
- Spectrum-4
- Quantum-3
NVIDIA也分享了Blackwell系列中的全新圖片。這些是第一批分享的Blackwell圖片,展示了設計下一代資料中心平台所需的工程專業知識。
Blackwell世代旨在滿足現代人工智慧需求,並在大型語言模型(例如Meta的405B Llama-3.1)中提供出色的效能。隨著LLM的規模隨著參數大小的增大而增長,資料中心將需要更多的計算和更低的延遲。現在您可以製作一個具有大量記憶體的大型GPU,並將整個模型放在該晶片上,但多個GPU是在令牌生成中實現較低延遲的要求。
多GPU推理方法將運算分散到多個GPU上以實現低延遲和高吞吐量,但採用多GPU路線也有其複雜性。多GPU環境中的每個GPU都必須將運算結果傳送到每一層的每個其他GPU,這帶來了高頻寬GPU到GPU通訊的需求。
NVIDIA的解決方案已經以NVSwitch的形式適用於多GPU。憑藉900GB/s的互連(結構)頻寬,Hopper NVLINK交換器的推理吞吐量比傳統GPU到GPU方法高出 1.5倍。 NVLINK Switch無需從一個GPU到另一個GPU進行多個HOPS,而是讓GPU只需要進行1個HOP到NVSwitch,另一個HOP直接到輔助GPU。
談到GPU本身,NVIDIA分享了Blackwell GPU本身的一些速度和回饋,如下所示:
- Two reticle-limited GPUs merged into one package
- 208B transistors in TSMC 4NP
- 20 Peta FLOPS FP4 AI
- 8 TB/s Memory Bandwidth
- 8-Site HBM3e memory
- 1.8 TB/s Bidirectional NVLINK Bandwidth
- High-Speed NVLINK-C2C Link to Grace CPU
打造十字線限制晶片的一些優點包括:
NVIDIA透過Blackwell推出了速度更快的NVLINK交換機,可將結構頻寬加倍至1.8TB/s。 NVLINK交換器本身是一個採用TSMC 4NP製程的800mm2晶片,並將 NVLINK擴展到GB200 NVL72機架中的72個GPU。該晶片透過72個連接埠提供7.2TB/s的全對全雙向頻寬,並有3.6 TFLOP的網內運算能力。 NVLINK交換器配備兩台這樣的交換機,提供高達14.4TB/s的總頻寬。
NVIDIA為Hot Chips計畫的教學課程之一名為水冷散熱提升效能和效率。這些新的水冷解決方案將被GB200、Grace Blackwell GB200和B200系統採用。
將要討論的水冷散熱方法之一是使用溫水直接散熱晶片,這種方法可以提高散熱效率、降低營運成本、延長IT伺服器壽命並實現熱再利用。由於這些不是需要電力來散熱水冷的傳統散熱器,因此使用溫水方法可以將資料中心設施的電力成本降低高達28%。
NVIDIA也分享了世界上第一個使用FP4運算製作的生成式AI影像。 FP4量化模型可以以更快的速度產生與FP16模型非常相似的4位兔子影像。該影像是由MLPerf 在穩定擴散中使用Blackwell產生的。現在降低精度(從FP16到FP4)面臨的挑戰是損失了一些精度。
兔子的方向存在一些差異,但大多數情況下,準確性得到保留,圖像的品質仍然很好。 FP4精度的利用是NVIDIA Quasar量化系統和研究的一部分,該系統和研究將降低精度的AI計算推向新的水平。
如前所述NVIDIA正在利用AI來打造AI晶片。生成式人工智慧能力用於產生最佳化的Verilog程式碼,Verilog程式碼是一種硬體描述語言,以程式碼的形式描述電路,用於Blackwell等處理器的設計和驗證。該語言還有助於加速下一代晶片架構,推動NVIDIA實現其年度節奏。
NVIDIA預計將在明年推出Blackwell Ultra GPU,該GPU有288GB HBM3e記憶體、更高的運算密度,隨後將分別在2026年和2027年推出Rubin / Rubin Ultra GPU 。
消息來源 |