NVIDIA在Hot Chips 34期間透露了其Grace CPU、Orin SOC和NVLINK晶片互連的新細節。
NVIDIA在GTC 2022上首次宣布了其Grace CPU和相應的Superchip設計。Grace CPU是NVIDIA首款採用定制Arm架構的處理器,將瞄準伺服器/HPC市場。該CPU 有兩種Superchip配置,一個是帶有兩個Grace CPU的Grace Superchip,一個是帶有一個連接到Hopper H100 GPU的Grace CPU的Grace+Hopper Superchip。
Grace 的一些主要亮點包括:
- 適用於HPC和雲端計算的高性能CPU
- 擁有多達144個Arm v9 CPU核心的超級晶片設計
- 全球首款帶ECC的LPDDR5x,1TB/s總頻寬
- SPECrate2017_int_base超過740(估計)
- 900GB/s匯流排,比PCIe Gen5快7倍
- 2倍於採用DIMM的解決方案的封裝密度
- 2倍於當今領先CPU的每W性能
- 可執行所有NVIDIA軟體堆棧和平台,包括RTX、HPC、AI和Omniverse
Grace被設計成成對的,因此設計中最關鍵的方面之一是其C2C(晶片到晶片)互連。Grace使用NVLINK實現了這一點,該NVLINK用於製造Superchip,並消除了與典型跨插槽配置相關的所有瓶頸。
C2C NVLINK互連提供900GB/s的原始雙向頻寬(與Hopper上的GPU到GPU NVLINK的頻寬相同),同時以僅1.3 pJ/bit的極低功耗執行。
NVIDIA Grace CPU擁有可擴展的一致性結構和分佈式快取設計。該晶片有高達3.225 TB/s的二分頻寬,可擴展至超過72個核心(Superchip上為144個),整合117MB的L3,並支援Arm記憶體分區和監控 (MPAM)。Grace還允許使用共享頁表的統一記憶體架構。兩個NVIDIA Grace+Hopper超級晶片可以透過NVSwitch互連在一起,一個超級晶片上的Grace CPU可以直接與另一個晶片上的GPU通訊,甚至可以以原生NVLINK速度訪問其VRAM。
仔細看看Grace的記憶體設計,NVIDIA在32個通道上使用了高達512GB的LPDDR5X,提供高達546GB/s的記憶體頻寬。NVIDIA表示考慮到整體頻寬、成本和功率要求時,LPDDR5X提供了最佳價值。對於I/O您可以獲得68個PCIe Gen 5.0通道,其中四個可用於128GB/s的x16鏈路,其餘兩個用於MISC。還有12條相干 NVLINK通道與兩條Gen 5 PCIe x16鏈路共享。
至於TDP,NVIDIA Grace(僅限CPU)超級晶片針對單核性能進行了優化,並為144核雙晶片配置提供高達1TB/s的記憶體頻寬和500W的TDP。
Grace SUPERCHIPS的額定功率約為500W,而每個AMD EPYC 7763的TDP為280W,因此其中兩個約為560W,我們沒有增加額外的系統功率,而NVIDIA的500W數字適用於整個GRACE SUPERCHIP封裝。
NVIDIA表示其Grace是一款高度專業化的處理器,目標是訓練擁有超過1 Trillion個參數的下一代NLP模型等工作負載。當與NVIDIA GPU緊密結合時,採用Grace CPU的系統將提供比當今最先進的NVIDIA DGX的系統(在x86 CPU上執行)快10倍的性能。
消息來源 |