找回密碼註冊
作者: sxs112.tw
查看: 3995
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    SAMSUNG T7 Shield 移動固態硬碟

    [*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

    GEX PRO 850W玩家開箱體驗分享活動

    卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

    體驗極速WiFi 7!MSI Roamii BE Lite Mesh

    第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

    極致效能 為遊戲而生 990 PRO SSD 玩家體驗

    [*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

    打印 上一主題 下一主題

    [顯示卡器] AMD拆解Instinct MI300X MCM GPU:全晶片有320個CDNA3運算單元、192GB HBM3,今年會升級為288GB HBM3e

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    sxs112.tw 發表於 2024-8-27 22:07:14 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
    AMD在下個季推出MI325X之前詳細介紹了其Instinct MI300X CDNA3 GPU ,詳細介紹了專為AI工作負載設計的GPU結構。
    AMD-Instinct-MI300X-CDNA-3-AI-Accelerator.jpg

    AMD的MI300X是第三代Instinct加速器,專為人工智慧運算領域而設計。該晶片還有MI300A設計,這是一款經過百億億次計算的APU優化產品,在兩個小晶片中提供Zen5核心組合,而其餘部分則利用CDNA3 GPU核心。
    2024-08-27_16-12-53-1456x819.jpg


    2024-08-27_16-12-44-1456x819.jpg

    AMD分解了整個Instinct MI300X,讓我們確切了解這款大型AI產品的底層原理。首先AMD Instinct MI300X共有1,530億個電晶體,混合了台積電5nm和6nm FinFET製程。八個chaplet有四個共享引擎,每個共享引擎包含10個計算單元。
    2024-08-27_16-12-51-scaled.jpg

    整個晶片包含32個著色器引擎,單一XCD中總共有40個著色器引擎,整個封裝中總共有320個著色器引擎。每個XCD都有其專用的L2快取,封裝的外圍有Infinity Fabric Link、8個HBM3 IO站點和一個總頻寬為128GB/s的PCIe Gen 5.0鏈路,可將MI300X連接到AMD EPYC CPU。
    2024-08-27_16-12-54-scaled.jpg

    AMD在其Instinct MI300X晶片上使用第四代Infinity Fabric,該晶片可提供高達896GB/s的頻寬。該晶片還採用了Infinity Fabric Advanced Package鏈路,該鏈路使用4.8TB/s的對分頻寬連接所有晶片,而XCD/IOD介面的額定頻寬為2.1TB/s。
    2024-08-27_16-12-57-scaled.jpg

    深入研究CDNA3架構本身,最新設計包括:
    • 加倍低精度矩陣ops/clk/cu
    • 對INT8、FP8、FP16、BF16的2:4結構化稀疏支援
    • 啟用稀疏性後效能提高2倍
    • TF32和FP8數位格式支援
    • FP16/FP32/INT32與FP16/FP32/FP64聯發

    下面分享了Mi300X架構的完整框圖,您可以看到每個XCD都停用了兩個運算單元,在完整的320個CU設計中總共有304個CU。全晶片配置有20,480個核心,而MI300X配置有19,456個核心。該晶片還內建256MB專用無限快取。

    MI300X 上快取和記憶體層次結構的完整分解如下圖所示:
    2024-08-27_16-12-58-scaled.jpg


    每個CDNA計算單元由調度器、本機資料共享、向量暫存器、向量單元、矩陣核心和L1快取組成。就效能數據而言,MI300X 提供:
    • Vector FP64 中的加速比MI250X增加1.7倍
    • Vector FP32 中的加速比MI250X提高了3.4倍
    • Matrix FP64 中的速度比MI250X增加1.7倍
    • Matrix FP32 中的速度比MI250X增加1.7倍
    • Matrix FP16 中的加速比MI250X增加了3.4倍
    • Matrix BF16 中的加速比MI250X增加了3.4倍
    • Matrix INT8 中的加速比MI250X增加了6.8倍

    2024-08-27_16-12-55-scaled.jpg

    AMD的Instinct MI300X也是首款採用8堆疊HBM3記憶體設計的加速器,NVIDIA將於今年稍後推出Blackwell GPU。與MI250X相比,新的8堆疊設計使AMD能夠實現1.5倍的容量提升,而新的HBM3標準的頻寬則提高了1.6倍。
    2024-08-27_16-12-56-scaled.jpg

    AMD也表示Instinct Mi300X上更大更快的記憶體配置使其能夠在訓練中處理高達70B的LLM (FP16) 大小,在推理中處理高達680B的LLM (FP16) 大小,而NVIDIA HGX H100系統在訓練中只能支援高達30B的模型大小和推理290B。
    2024-08-27_16-13-00-scaled.jpg

    Instinct Mi300X的一項有趣功能是AMD的空間分區,它允許使用者根據工作負載的需求對XCD進行分區。所有XCD作為單一處理器一起運行,但也可以進行分區和分組以顯示為多個GPU。
    2024-08-27_16-13-01-1456x819.jpg


    2024-08-27_16-13-02-1456x819.jpg


    2024-08-27_16-13-06-1456x819.jpg


    2024-08-27_16-13-07-1456x819.jpg


    2024-08-27_16-13-08-1456x819.jpg

    AMD將於10月透過MI325X升級其Instinct平台,該平台將採用HBM3e記憶體並增加高達288GB的容量。MI325X的一些功能包括:
    • 2x 記憶體
    • 1.3倍記憶體頻寬
    • 1.3倍峰值理論FP16
    • 1.3倍峰值理論FP8
    • 每台伺服器2倍模型大小

    2024-08-27_16-13-09-1456x819.jpg


    2024-08-27_16-13-10-1456x819.jpg


    2024-08-27_16-13-12-1456x819.jpg


    2024-08-27_16-13-13-1456x819.jpg


    2024-08-27_16-13-16-1456x819.jpg

    NVIDIA的答案將於明年以配備288GB HBM3e的Blackwell Ultra形式出現,因此AMD將再次在這個至關重要的AI市場中保持領先地位,該市場中更大的AI模型正在出現,並且需要更大的記憶體容量來支援數十億或數兆個參數。

    消息來源
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2024-12-22 15:33 , Processed in 0.077788 second(s), 33 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表