NVIDIA發表的一份新研究論文(由Twitter 用戶Redfire發現)揭示了一種名為GPU-N的神秘NVIDIA GPU,它可能是對下一代Hopper GH100晶片的第一眼。
研究論文透過可組合封裝架構實現的GPU領域專業化將下一代GPU設計作為最大化低精度矩陣數學吞吐量以提高深度學習性能的最實用解決方案。已經討論了GPU-N及其各自的COPA設計及其可能的規格和模擬性能結果。
據說GPU-N有134個SM 單元(而A100為104個SM單元)。這總共構成了8576個核心,比當前的Ampere A100解決方案增加了24%。該晶片的測量頻率為1.4 GHz,與Ampere A100和Volta V100的理論速度相同(不要與最終時脈混淆)。其他規格包括60MB L2,比Ampere A100增加 50%,以及2.68TB/s的DRAM頻寬,並可擴展至6.3 TB/s。HBM2e DRAM容量為100 GB,可透過COPA實現擴展到 233 GB。它圍繞6144位元記憶體匯流排進行配置,速度為3.5Gbps。
談到性能數據,GPU-N(大概是Hopper GH100)可產生24.2 TFLOPs的FP32(比A100增加24%)和779 TFLOPs FP16(比A100增加2.5倍),這聽起來非常接近3倍的增益傳聞。與搭載Instinct MI250X加速器的AMD CDNA2 Aldebaran GPU相比,FP32性能不到一半(95.7 TFLOPs對24.2 TFLOPs),但FP16性能高出 2.15倍。
根據之前的訊息我們知道NVIDIA的H100加速器將採用MCM解決方案並使用台積電的5nm製程。Hopper應該有兩個下一代GPU模組,所以我們總共可以看到288 個SM單元。由於我們不知道每個SM中的核心數量,我們還不能給出核心數量的概要,但是如果每個SM堅持64個核心,那麼我們將獲得18,432個核心,比完整的 GA100 GPU多2.25倍SM。NVIDIA還可以在其Hopper GPU中利用更多FP64、FP16和Tensor核心,這將極大地提高性能。這將是與Intel的Ponte Vecchio競爭的必要條件,該Ponte Vecchio預計將採用1:1 FP64。
最終配置可能會在每個GPU上啟用144個SM單元中的134個,因此我們可能會看到單個GH100晶片在執行。但是NVIDIA不太可能在不使用GPU稀疏性的情況下達到與MI200相同的FP32或FP64 Flops性能。
消息來源 |