AMD拆解Instinct MI300X MCM GPU：全晶片有320個CDNA3運算單元、192GB HBM3，今年會升級為288GB HBM3e

sxs112.tw · 發表於 2024-8-27 22:07:14

AMD在下個季推出MI325X之前詳細介紹了其Instinct MI300X CDNA3 GPU ，詳細介紹了專為AI工作負載設計的GPU結構。

AMD的MI300X是第三代Instinct加速器，專為人工智慧運算領域而設計。該晶片還有MI300A設計，這是一款經過百億億次計算的APU優化產品，在兩個小晶片中提供Zen5核心組合，而其餘部分則利用CDNA3 GPU核心。

AMD分解了整個Instinct MI300X，讓我們確切了解這款大型AI產品的底層原理。首先AMD Instinct MI300X共有1,530億個電晶體，混合了台積電5nm和6nm FinFET製程。八個chaplet有四個共享引擎，每個共享引擎包含10個計算單元。

整個晶片包含32個著色器引擎，單一XCD中總共有40個著色器引擎，整個封裝中總共有320個著色器引擎。每個XCD都有其專用的L2快取，封裝的外圍有Infinity Fabric Link、8個HBM3 IO站點和一個總頻寬為128GB/s的PCIe Gen 5.0鏈路，可將MI300X連接到AMD EPYC CPU。

AMD在其Instinct MI300X晶片上使用第四代Infinity Fabric，該晶片可提供高達896GB/s的頻寬。該晶片還採用了Infinity Fabric Advanced Package鏈路，該鏈路使用4.8TB/s的對分頻寬連接所有晶片，而XCD/IOD介面的額定頻寬為2.1TB/s。

深入研究CDNA3架構本身，最新設計包括：

加倍低精度矩陣ops/clk/cu
對INT8、FP8、FP16、BF16的2:4結構化稀疏支援
啟用稀疏性後效能提高2倍
TF32和FP8數位格式支援
FP16/FP32/INT32與FP16/FP32/FP64聯發

下面分享了Mi300X架構的完整框圖，您可以看到每個XCD都停用了兩個運算單元，在完整的320個CU設計中總共有304個CU。全晶片配置有20,480個核心，而MI300X配置有19,456個核心。該晶片還內建256MB專用無限快取。

MI300X 上快取和記憶體層次結構的完整分解如下圖所示：

每個CDNA計算單元由調度器、本機資料共享、向量暫存器、向量單元、矩陣核心和L1快取組成。就效能數據而言，MI300X 提供：

Vector FP64 中的加速比MI250X增加1.7倍
Vector FP32 中的加速比MI250X提高了3.4倍
Matrix FP64 中的速度比MI250X增加1.7倍
Matrix FP32 中的速度比MI250X增加1.7倍
Matrix FP16 中的加速比MI250X增加了3.4倍
Matrix BF16 中的加速比MI250X增加了3.4倍
Matrix INT8 中的加速比MI250X增加了6.8倍

AMD的Instinct MI300X也是首款採用8堆疊HBM3記憶體設計的加速器，NVIDIA將於今年稍後推出Blackwell GPU。與MI250X相比，新的8堆疊設計使AMD能夠實現1.5倍的容量提升，而新的HBM3標準的頻寬則提高了1.6倍。

AMD也表示Instinct Mi300X上更大更快的記憶體配置使其能夠在訓練中處理高達70B的LLM (FP16) 大小，在推理中處理高達680B的LLM (FP16) 大小，而NVIDIA HGX H100系統在訓練中只能支援高達30B的模型大小和推理290B。

Instinct Mi300X的一項有趣功能是AMD的空間分區，它允許使用者根據工作負載的需求對XCD進行分區。所有XCD作為單一處理器一起運行，但也可以進行分區和分組以顯示為多個GPU。

AMD將於10月透過MI325X升級其Instinct平台，該平台將採用HBM3e記憶體並增加高達288GB的容量。MI325X的一些功能包括：

2x 記憶體
1.3倍記憶體頻寬
1.3倍峰值理論FP16
1.3倍峰值理論FP8
每台伺服器2倍模型大小

NVIDIA的答案將於明年以配備288GB HBM3e的Blackwell Ultra形式出現，因此AMD將再次在這個至關重要的AI市場中保持領先地位，該市場中更大的AI模型正在出現，並且需要更大的記憶體容量來支援數十億或數兆個參數。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

SAMSUNG T7 Shield 移動固態硬碟

GEX PRO 850W玩家開箱體驗分享活動

體驗極速WiFi 7！MSI Roamii BE Lite Mesh

極致效能為遊戲而生 990 PRO SSD 玩家體驗

[顯示卡器] AMD拆解Instinct MI300X MCM GPU：全晶片有320個CDNA3運算單元、192GB HBM3，今年會升級為288GB HBM3e