NVIDIA表示Hopper上的第4代Tensor核心在同一時脈下可提供2倍的性能。

sxs112.tw · 發表於 2022-8-22 21:31:42

NVIDIA在Hot Chips 34上進一步剖析其Hopper H100 GPU，讓我們體驗第四代Tensor核心架構所提供的功能。

雖然AMD在其HPC GPU上採用MCM方法，但NVIDIA決定暫時堅持單Die設計。因此他們的Hopper H100是使用台積電4N製程製造的最大GPU之一，該設計專為 NVIDIA進行了優化和製造。

H100 GPU是一款怪獸級晶片，採用最新的4nm技術，並結合了800億個電晶體管以及最先進的HBM3技術。H100採用PG520 PCB板打造，該板有30多個電源 VRM和一個使用TSMC的CoWoS技術將Hopper H100 GPU與6堆棧HBM3設計相結合的大型整合中介層。Hopper H100 GPU的一些主要技術包括：

132 SMs (2x Performance Per Clock)
4th Gen Tensor Cores
Thread Block Clusters
2nd Gen Multi-Instance GPU
Confidential Computing
PCIe Gen 5.0 Interface
World's First HBM3 DRAM
Larger 50 MB L2 Cache
4th Gen NVLink (900 GB/s Total Bandwidth)
New SHARP support
NVLink Network

在六個堆棧中，保留兩個堆棧以確保良率完整性。但是新的HBM3標準允許以3TB/s的速度提供高達80GB的容量。相比之下目前最快的遊戲顯示卡RTX 3090 Ti僅提供1TB/s的頻寬和24GB的VRAM 容量。除此之外H100 Hopper GPU還採用最新的FP8格式，透過其新的SXM連接，它有助於對應晶片設計的700W電源設計。它還提供兩倍的FP32和FP64 FMA速率和256 KB L1高速快取（共享記憶體）。

因此按照規格NVIDIA Hopper GH100 GPU由一個巨大的144SM（處理器）晶片佈局組成，總共有8個GPC。這些GPC共有9個TPC，每個TPC進一步由2個SM單元組成。這使我們每個GPC有18個SM，而在完整的8個GPC配置中，我們有144個。每個SM最多由128個FP32單元組成，這應該給我們總共18,432個CUDA核心。

這比完整的GA100 GPU配置增加了2.25倍。NVIDIA還在其Hopper GPU中利用了更多的FP64、FP16和Tensor核心，這將極大地提高性能。這將是與Intel的Ponte Vecchio競爭的必要條件，後者也有望採用1:1 FP64。NVIDIA表示Hopper上的第4代Tensor核心在同一時脈下可提供2倍的性能。

另一個有趣的比較指出了GPU擴展，Hopper H100 GPU上的單個GPC相當於Kepler GK110 GPU，這是2012年的旗艦HPC晶片。Kepler GK110總共包含15個SM，而Hopper H110 GPU包含132個SM甚至Hopper GPU上的單個GPC也有18個SM，比Kepler旗艦上的全部SM多20%。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

FIT V DDR5 電競/超頻記憶體玩家開箱體驗

華碩極速WiFi 7 寫文競走開始！-- 得獎公

Ducky One X 玩家開箱體驗分享活動

UNI FAN TL Wireless LCD 120 ARGB 玩家開

[顯示卡器] NVIDIA表示Hopper上的第4代Tensor核心在同一時脈下可提供2倍的性能。