AMD在下個季推出MI325X之前詳細介紹了其Instinct MI300X CDNA3 GPU ,詳細介紹了專為AI工作負載設計的GPU結構。
AMD的MI300X是第三代Instinct加速器,專為人工智慧運算領域而設計。該晶片還有MI300A設計,這是一款經過百億億次計算的APU優化產品,在兩個小晶片中提供Zen5核心組合,而其餘部分則利用CDNA3 GPU核心。
AMD分解了整個Instinct MI300X,讓我們確切了解這款大型AI產品的底層原理。首先AMD Instinct MI300X共有1,530億個電晶體,混合了台積電5nm和6nm FinFET製程。八個chaplet有四個共享引擎,每個共享引擎包含10個計算單元。
整個晶片包含32個著色器引擎,單一XCD中總共有40個著色器引擎,整個封裝中總共有320個著色器引擎。每個XCD都有其專用的L2快取,封裝的外圍有Infinity Fabric Link、8個HBM3 IO站點和一個總頻寬為128GB/s的PCIe Gen 5.0鏈路,可將MI300X連接到AMD EPYC CPU。
AMD在其Instinct MI300X晶片上使用第四代Infinity Fabric,該晶片可提供高達896GB/s的頻寬。該晶片還採用了Infinity Fabric Advanced Package鏈路,該鏈路使用4.8TB/s的對分頻寬連接所有晶片,而XCD/IOD介面的額定頻寬為2.1TB/s。
深入研究CDNA3架構本身,最新設計包括:
- 加倍低精度矩陣ops/clk/cu
- 對INT8、FP8、FP16、BF16的2:4結構化稀疏支援
- 啟用稀疏性後效能提高2倍
- TF32和FP8數位格式支援
- FP16/FP32/INT32與FP16/FP32/FP64聯發
下面分享了Mi300X架構的完整框圖,您可以看到每個XCD都停用了兩個運算單元,在完整的320個CU設計中總共有304個CU。全晶片配置有20,480個核心,而MI300X配置有19,456個核心。該晶片還內建256MB專用無限快取。
MI300X 上快取和記憶體層次結構的完整分解如下圖所示:
每個CDNA計算單元由調度器、本機資料共享、向量暫存器、向量單元、矩陣核心和L1快取組成。就效能數據而言,MI300X 提供:
- Vector FP64 中的加速比MI250X增加1.7倍
- Vector FP32 中的加速比MI250X提高了3.4倍
- Matrix FP64 中的速度比MI250X增加1.7倍
- Matrix FP32 中的速度比MI250X增加1.7倍
- Matrix FP16 中的加速比MI250X增加了3.4倍
- Matrix BF16 中的加速比MI250X增加了3.4倍
- Matrix INT8 中的加速比MI250X增加了6.8倍
AMD的Instinct MI300X也是首款採用8堆疊HBM3記憶體設計的加速器,NVIDIA將於今年稍後推出Blackwell GPU。與MI250X相比,新的8堆疊設計使AMD能夠實現1.5倍的容量提升,而新的HBM3標準的頻寬則提高了1.6倍。
AMD也表示Instinct Mi300X上更大更快的記憶體配置使其能夠在訓練中處理高達70B的LLM (FP16) 大小,在推理中處理高達680B的LLM (FP16) 大小,而NVIDIA HGX H100系統在訓練中只能支援高達30B的模型大小和推理290B。
Instinct Mi300X的一項有趣功能是AMD的空間分區,它允許使用者根據工作負載的需求對XCD進行分區。所有XCD作為單一處理器一起運行,但也可以進行分區和分組以顯示為多個GPU。
AMD將於10月透過MI325X升級其Instinct平台,該平台將採用HBM3e記憶體並增加高達288GB的容量。MI325X的一些功能包括:
- 2x 記憶體
- 1.3倍記憶體頻寬
- 1.3倍峰值理論FP16
- 1.3倍峰值理論FP8
- 每台伺服器2倍模型大小
NVIDIA的答案將於明年以配備288GB HBM3e的Blackwell Ultra形式出現,因此AMD將再次在這個至關重要的AI市場中保持領先地位,該市場中更大的AI模型正在出現,並且需要更大的記憶體容量來支援數十億或數兆個參數。
消息來源 |