找回密碼註冊
作者: sxs112.tw
查看: 4015
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

SAMSUNG T7 Shield 移動固態硬碟

[*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

GEX PRO 850W玩家開箱體驗分享活動

卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

體驗極速WiFi 7!MSI Roamii BE Lite Mesh

第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

打印 上一主題 下一主題

[顯示卡器] AMD拆解Instinct MI300X MCM GPU:全晶片有320個CDNA3運算單元、192GB HBM3,今年會升級為288GB HBM3e

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2024-8-27 22:07:14 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
AMD在下個季推出MI325X之前詳細介紹了其Instinct MI300X CDNA3 GPU ,詳細介紹了專為AI工作負載設計的GPU結構。
AMD-Instinct-MI300X-CDNA-3-AI-Accelerator.jpg

AMD的MI300X是第三代Instinct加速器,專為人工智慧運算領域而設計。該晶片還有MI300A設計,這是一款經過百億億次計算的APU優化產品,在兩個小晶片中提供Zen5核心組合,而其餘部分則利用CDNA3 GPU核心。
2024-08-27_16-12-53-1456x819.jpg


2024-08-27_16-12-44-1456x819.jpg

AMD分解了整個Instinct MI300X,讓我們確切了解這款大型AI產品的底層原理。首先AMD Instinct MI300X共有1,530億個電晶體,混合了台積電5nm和6nm FinFET製程。八個chaplet有四個共享引擎,每個共享引擎包含10個計算單元。
2024-08-27_16-12-51-scaled.jpg

整個晶片包含32個著色器引擎,單一XCD中總共有40個著色器引擎,整個封裝中總共有320個著色器引擎。每個XCD都有其專用的L2快取,封裝的外圍有Infinity Fabric Link、8個HBM3 IO站點和一個總頻寬為128GB/s的PCIe Gen 5.0鏈路,可將MI300X連接到AMD EPYC CPU。
2024-08-27_16-12-54-scaled.jpg

AMD在其Instinct MI300X晶片上使用第四代Infinity Fabric,該晶片可提供高達896GB/s的頻寬。該晶片還採用了Infinity Fabric Advanced Package鏈路,該鏈路使用4.8TB/s的對分頻寬連接所有晶片,而XCD/IOD介面的額定頻寬為2.1TB/s。
2024-08-27_16-12-57-scaled.jpg

深入研究CDNA3架構本身,最新設計包括:
  • 加倍低精度矩陣ops/clk/cu
  • 對INT8、FP8、FP16、BF16的2:4結構化稀疏支援
  • 啟用稀疏性後效能提高2倍
  • TF32和FP8數位格式支援
  • FP16/FP32/INT32與FP16/FP32/FP64聯發

下面分享了Mi300X架構的完整框圖,您可以看到每個XCD都停用了兩個運算單元,在完整的320個CU設計中總共有304個CU。全晶片配置有20,480個核心,而MI300X配置有19,456個核心。該晶片還內建256MB專用無限快取。

MI300X 上快取和記憶體層次結構的完整分解如下圖所示:
2024-08-27_16-12-58-scaled.jpg


每個CDNA計算單元由調度器、本機資料共享、向量暫存器、向量單元、矩陣核心和L1快取組成。就效能數據而言,MI300X 提供:
  • Vector FP64 中的加速比MI250X增加1.7倍
  • Vector FP32 中的加速比MI250X提高了3.4倍
  • Matrix FP64 中的速度比MI250X增加1.7倍
  • Matrix FP32 中的速度比MI250X增加1.7倍
  • Matrix FP16 中的加速比MI250X增加了3.4倍
  • Matrix BF16 中的加速比MI250X增加了3.4倍
  • Matrix INT8 中的加速比MI250X增加了6.8倍

2024-08-27_16-12-55-scaled.jpg

AMD的Instinct MI300X也是首款採用8堆疊HBM3記憶體設計的加速器,NVIDIA將於今年稍後推出Blackwell GPU。與MI250X相比,新的8堆疊設計使AMD能夠實現1.5倍的容量提升,而新的HBM3標準的頻寬則提高了1.6倍。
2024-08-27_16-12-56-scaled.jpg

AMD也表示Instinct Mi300X上更大更快的記憶體配置使其能夠在訓練中處理高達70B的LLM (FP16) 大小,在推理中處理高達680B的LLM (FP16) 大小,而NVIDIA HGX H100系統在訓練中只能支援高達30B的模型大小和推理290B。
2024-08-27_16-13-00-scaled.jpg

Instinct Mi300X的一項有趣功能是AMD的空間分區,它允許使用者根據工作負載的需求對XCD進行分區。所有XCD作為單一處理器一起運行,但也可以進行分區和分組以顯示為多個GPU。
2024-08-27_16-13-01-1456x819.jpg


2024-08-27_16-13-02-1456x819.jpg


2024-08-27_16-13-06-1456x819.jpg


2024-08-27_16-13-07-1456x819.jpg


2024-08-27_16-13-08-1456x819.jpg

AMD將於10月透過MI325X升級其Instinct平台,該平台將採用HBM3e記憶體並增加高達288GB的容量。MI325X的一些功能包括:
  • 2x 記憶體
  • 1.3倍記憶體頻寬
  • 1.3倍峰值理論FP16
  • 1.3倍峰值理論FP8
  • 每台伺服器2倍模型大小

2024-08-27_16-13-09-1456x819.jpg


2024-08-27_16-13-10-1456x819.jpg


2024-08-27_16-13-12-1456x819.jpg


2024-08-27_16-13-13-1456x819.jpg


2024-08-27_16-13-16-1456x819.jpg

NVIDIA的答案將於明年以配備288GB HBM3e的Blackwell Ultra形式出現,因此AMD將再次在這個至關重要的AI市場中保持領先地位,該市場中更大的AI模型正在出現,並且需要更大的記憶體容量來支援數十億或數兆個參數。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-12-25 14:40 , Processed in 0.079539 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表