找回密碼註冊
作者: sxs112.tw
查看: 3994
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

SAMSUNG T7 Shield 移動固態硬碟

[*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

GEX PRO 850W玩家開箱體驗分享活動

卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

體驗極速WiFi 7!MSI Roamii BE Lite Mesh

第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

打印 上一主題 下一主題

[業界新聞] NVIDIA Blackwell已在資料中心啟動並執行:NVLINK升級至1.4TB/s、更多GPU詳細資訊

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2024-8-24 19:11:43 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
NVIDIA駁斥了Blackwell延遲的傳言,並準備分享更多有關現已在資料中心運作的資料中心Goliath的資訊。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_1.png

NVIDIA的Blackwell現已啟動並投入營運,今年將登陸全球資料中心,更多詳細資訊將於下週在Hot Chips上分享,隨著Hot Chips將於下週開始,NVIDIA將提前向我們介紹他們在活動期間計劃的各種會議中的預期內容。
NVLink-Switch-Tray-3-Custom-1456x1092.jpg


NVLink-Switch-Tray-1-Custom-1456x1092.jpg


NVLink-Switch-Tray-2-Custom-1456x1092.jpg

鑑於最近有關Blackwell延遲推出的謠言激增,該公司透過展示Blackwell在其一個數據中心的啟動和執行來拉開了新聞發布會的序幕,正如該公司之前已經聲明的那樣Blackwell正在啟動軌道坡道並將於今年稍後運送給客戶。因此對於任何人來說Blackwell有某種缺陷或問題並且今年不會進入市場,這並沒有太大的影響力。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_2.png

但Blackwell不僅僅是一款晶片,它還是一個平台。就像Hopper一樣,Blackwell涵蓋了針對資料中心、雲端和人工智慧客戶的大量設計,並且每個Blackwell產品都由各種晶片組成。這些包括:
  • Blackwell GPU
  • Grace CPU
  • NVLINK Switch Chip
  • Bluefield-3
  • ConnectX-7
  • ConnectX-8
  • Spectrum-4
  • Quantum-3

GB200-Custom.jpg

NVIDIA也分享了Blackwell系列中的全新圖片。這些是第一批分享的Blackwell圖片,展示了設計下一代資料中心平台所需的工程專業知識。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_3.png

Blackwell世代旨在滿足現代人工智慧需求,並在大型語言模型(例如Meta的405B Llama-3.1)中提供出色的效能。隨著LLM的規模隨著參數大小的增大而增長,資料中心將需要更多的計算和更低的延遲。現在您可以製作一個具有大量記憶體的大型GPU,並將整個模型放在該晶片上,但多個GPU是在令牌生成中實現較低延遲的要求。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_4.png

多GPU推理方法將運算分散到多個GPU上以實現低延遲和高吞吐量,但採用多GPU路線也有其複雜性。多GPU環境中的每個GPU都必須將運算結果傳送到每一層的每個其他GPU,這帶來了高頻寬GPU到GPU通訊的需求。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_5.png

NVIDIA的解決方案已經以NVSwitch的形式適用於多GPU。憑藉900GB/s的互連(結構)頻寬,Hopper NVLINK交換器的推理吞吐量比傳統GPU到GPU方法高出 1.5倍。 NVLINK Switch無需從一個GPU到另一個GPU進行多個HOPS,而是讓GPU只需要進行1個HOP到NVSwitch,另一個HOP直接到輔助GPU。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_10.png

談到GPU本身,NVIDIA分享了Blackwell GPU本身的一些速度和回饋,如下所示:
  • Two reticle-limited GPUs merged into one package
  • 208B transistors in TSMC 4NP
  • 20 Peta FLOPS FP4 AI
  • 8 TB/s Memory Bandwidth
  • 8-Site HBM3e memory
  • 1.8 TB/s Bidirectional NVLINK Bandwidth
  • High-Speed NVLINK-C2C Link to Grace CPU


打造十字線限制晶片的一些優點包括:
  • 最高通訊密度
  • 最低延遲
  • 最佳能源效率

NVIDIA透過Blackwell推出了速度更快的NVLINK交換機,可將結構頻寬加倍至1.8TB/s。 NVLINK交換器本身是一個採用TSMC 4NP製程的800mm2晶片,並將 NVLINK擴展到GB200 NVL72機架中的72個GPU。該晶片透過72個連接埠提供7.2TB/s的全對全雙向頻寬,並有3.6 TFLOP的網內運算能力。 NVLINK交換器配備兩台這樣的交換機,提供高達14.4TB/s的總頻寬。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_8.png

NVIDIA為Hot Chips計畫的教學課程之一名為水冷散熱提升效能和效率。這些新的水冷解決方案將被GB200、Grace Blackwell GB200和B200系統採用。
NVIDIA-Quantum-top-view-open-blk-Custom.jpg

將要討論的水冷散熱方法之一是使用溫水直接散熱晶片,這種方法可以提高散熱效率、降低營運成本、延長IT伺服器壽命並實現熱再利用。由於這些不是需要電力來散熱水冷的傳統散熱器,因此使用溫水方法可以將資料中心設施的電力成本降低高達28%。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_6.png

NVIDIA也分享了世界上第一個使用FP4運算製作的生成式AI影像。 FP4量化模型可以以更快的速度產生與FP16模型非常相似的4位兔子影像。該影像是由MLPerf 在穩定擴散中使用Blackwell產生的。現在降低精度(從FP16到FP4)面臨的挑戰是損失了一些精度。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_7.png

兔子的方向存在一些差異,但大多數情況下,準確性得到保留,圖像的品質仍然很好。 FP4精度的利用是NVIDIA Quasar量化系統和研究的一部分,該系統和研究將降低精度的AI計算推向新的水平。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_9.png

如前所述NVIDIA正在利用AI來打造AI晶片。生成式人工智慧能力用於產生最佳化的Verilog程式碼,Verilog程式碼是一種硬體描述語言,以程式碼的形式描述電路,用於Blackwell等處理器的設計和驗證。該語言還有助於加速下一代晶片架構,推動NVIDIA實現其年度節奏。
NVIDIA-Blackwell-NVLINK-Switch-Pre-Hot-Chips-AI_11.png

NVIDIA預計將在明年推出Blackwell Ultra GPU,該GPU有288GB HBM3e記憶體、更高的運算密度,隨後將分別在2026年和2027年推出Rubin / Rubin Ultra GPU 。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-12-19 00:39 , Processed in 0.190410 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表