NVIDIA Grace CPU詳細訊息：72個Arm V9.0核心、117MB L3、68個PCIe Gen5通道、TSMC 4N製程和500W TDP

sxs112.tw · 發表於 2022-8-24 15:22:55

NVIDIA在Hot Chips 34期間透露了其Grace CPU、Orin SOC和NVLINK晶片互連的新細節。

NVIDIA-Grace-CPU-ARM-Architecture-Neoverse-Cores-_1-very_compressed-scale-4_00x-Custom.png

NVIDIA在GTC 2022上首次宣布了其Grace CPU和相應的Superchip設計。Grace CPU是NVIDIA首款採用定制Arm架構的處理器，將瞄準伺服器/HPC市場。該CPU 有兩種Superchip配置，一個是帶有兩個Grace CPU的Grace Superchip，一個是帶有一個連接到Hopper H100 GPU的Grace CPU的Grace+Hopper Superchip。

Grace 的一些主要亮點包括：

適用於HPC和雲端計算的高性能CPU
擁有多達144個Arm v9 CPU核心的超級晶片設計
全球首款帶ECC的LPDDR5x，1TB/s總頻寬
SPECrate2017_int_base超過740（估計）
900GB/s匯流排，比PCIe Gen5快7倍
2倍於採用DIMM的解決方案的封裝密度
2倍於當今領先CPU的每W性能
可執行所有NVIDIA軟體堆棧和平台，包括RTX、HPC、AI和Omniverse

Grace被設計成成對的，因此設計中最關鍵的方面之一是其C2C（晶片到晶片）互連。Grace使用NVLINK實現了這一點，該NVLINK用於製造Superchip，並消除了與典型跨插槽配置相關的所有瓶頸。

C2C NVLINK互連提供900GB/s的原始雙向頻寬（與Hopper上的GPU到GPU NVLINK的頻寬相同），同時以僅1.3 pJ/bit的極低功耗執行。

NVIDIA Grace CPU擁有可擴展的一致性結構和分佈式快取設計。該晶片有高達3.225 TB/s的二分頻寬，可擴展至超過72個核心（Superchip上為144個），整合117MB的L3，並支援Arm記憶體分區和監控 (MPAM)。Grace還允許使用共享頁表的統一記憶體架構。兩個NVIDIA Grace+Hopper超級晶片可以透過NVSwitch互連在一起，一個超級晶片上的Grace CPU可以直接與另一個晶片上的GPU通訊，甚至可以以原生NVLINK速度訪問其VRAM。

NVIDIA-Grace-CPU-Superchips-_-Hot-Chips-34-_3-1480x833.png

NVIDIA-Grace-CPU-Superchips-_-Hot-Chips-34-_4-1480x833.png

NVIDIA-Grace-CPU-Superchips-_-Hot-Chips-34-_5-1480x833.png

NVIDIA-Grace-CPU-Superchips-_-Hot-Chips-34-_6-1480x833.png

NVIDIA-Grace-CPU-Superchips-_-Hot-Chips-34-_7-1480x833.png

NVIDIA-Grace-CPU-Superchips-_-Hot-Chips-34-_8-1480x833.png

仔細看看Grace的記憶體設計，NVIDIA在32個通道上使用了高達512GB的LPDDR5X，提供高達546GB/s的記憶體頻寬。NVIDIA表示考慮到整體頻寬、成本和功率要求時，LPDDR5X提供了最佳價值。對於I/O您可以獲得68個PCIe Gen 5.0通道，其中四個可用於128GB/s的x16鏈路，其餘兩個用於MISC。還有12條相干 NVLINK通道與兩條Gen 5 PCIe x16鏈路共享。

NVIDIA-Grace-CPU-Superchips-_-Hot-Chips-34-_9-1480x833.png

至於TDP，NVIDIA Grace（僅限CPU）超級晶片針對單核性能進行了優化，並為144核雙晶片配置提供高達1TB/s的記憶體頻寬和500W的TDP。

NVIDIA-Grace-CPU-Superchips-_-Hot-Chips-34-_14-1480x833.png

Grace SUPERCHIPS的額定功率約為500W，而每個AMD EPYC 7763的TDP為280W，因此其中兩個約為560W，我們沒有增加額外的系統功率，而NVIDIA的500W數字適用於整個GRACE SUPERCHIP封裝。

NVIDIA表示其Grace是一款高度專業化的處理器，目標是訓練擁有超過1 Trillion個參數的下一代NLP模型等工作負載。當與NVIDIA GPU緊密結合時，採用Grace CPU的系統將提供比當今最先進的NVIDIA DGX的系統（在x86 CPU上執行）快10倍的性能。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

極致效能為遊戲而生 990 PRO SSD 玩家體驗

Micron Crucial PRO D5 6400超頻版玩家開

O11 VISION COMPACT 玩家開箱體驗分享活動

2024 三星SD記憶卡玩家開箱體驗分享活動

[處理器主機板] NVIDIA Grace CPU詳細訊息：72個Arm V9.0核心、117MB L3、68個PCIe Gen5通道、TSMC 4N製程和500W TDP

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

Micron Crucial PRO D5 6400超頻版 玩家開

O11 VISION COMPACT 玩家開箱體驗分享活動

2024 三星SD記憶卡 玩家開箱體驗分享活動

[處理器 主機板] NVIDIA Grace CPU詳細訊息：72個Arm V9.0核心、117MB L3、68個PCIe Gen5通道、TSMC 4N製程和500W TDP

極致效能為遊戲而生 990 PRO SSD 玩家體驗

Micron Crucial PRO D5 6400超頻版玩家開

2024 三星SD記憶卡玩家開箱體驗分享活動

[處理器主機板] NVIDIA Grace CPU詳細訊息：72個Arm V9.0核心、117MB L3、68個PCIe Gen5通道、TSMC 4N製程和500W TDP