找回密碼註冊
作者: sxs112.tw
查看: 6244
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

Micron Crucial PRO D5 6400超頻版 玩家開

解銷更快的遊戲速度! 利用低延遲遊戲記憶體的強大功能 利用 Cruci ...

O11 VISION COMPACT 玩家開箱體驗分享活動

迷你身形 三面透視打造精緻PC視野新境界O11 VISION COMPACT 強強聯合 ...

2024 三星SD記憶卡 玩家開箱體驗分享活動

2024 PRO Plus SD 記憶卡 [*]為專業人士打造 [*]釋放極限速度 [*]多 ...

打印 上一主題 下一主題

[處理器 主機板] AMD推出Instinct MI300X AI GPU加速器,比NVIDIA H100快達60%

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2023-12-7 09:25:52 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
AMD宣布正式推出旗艦AI GPU加速器MI300X,效能比NVIDIA H100提升高達60%。

AMD Instinct MI300等級AI加速器將成為另一個小型晶片動力來源,利用台積電的先進封裝技術。今天AMD不僅宣布推出這些晶片,還分享了MI300X的首個性能測試看起來非常棒。AMD首先使用一般規格作為比較,並使用其CDNA 3加速器提供的功能(與NVIDIA H100相比):
AMD-Instinct-MI300X-Launch.png

  • 記憶體容量提高2.4倍
  • 記憶體頻寬提高1.6倍
  • 1.3倍FP8 TFLOPS
  • 1.3倍FP16 TFLOPS
  • 在1v1比較中,速度比H100 (Llama 2 70B) 快達20%
  • 在1v1比較中,速度比H100 (FlashAttention 2) 快達20%
  • 8v8 伺服器中的速度比H100 (Llama 2 70B) 快達40%
  • 在8v8伺服器中,速度比H100 (Bloom 176B) 快達60%

AMD-Instinct-MI300-_-MI300X-Launch-_4-1456x819.png


AMD-Instinct-MI300-_-MI300X-Launch-_3-1456x819.png


AMD-Instinct-MI300-_-MI300X-Launch-_6-1456x819.png

在一般LLM和新TFLOP中,MI300X在FlashAttention-2和Llama 2 70B中提供高達20%的效能提升。從平台角度來看將8x MI300X解決方案與8X H100解決方案進行比較,我們發現Llama 2 70B獲得了更大的40%增益,而Bloom 176B則獲得了60%的增益。
AMD-Instinct-MI300-_-MI300X-Launch-_7.png

AMD提到在訓練性能方面,MI300X與競爭對手 (H100) 相當,並提供有競爭力的價格/性能,同時在推理工作負載方面表現出色。

最新MI300加速器背後的驅動力是ROCm 6.0。該軟體已更新至最新版本,有強大的新功能,包括支援各種人工智慧工作負載,例如生成式人工智慧和大型語言模型。
AMD-ROCm-6-_1-1456x819.png


AMD-ROCm-6-_2-1456x819.png


AMD-ROCm-6-_3-1456x819.png

新的軟體支援最新的計算格式,例如FP16、Bf16和FP8(包括Sparsity)。這些優化相結合,透過優化的推理庫將vLLM的速度提高高達2.6倍,透過優化的運行時間將HIP Graph的速度提高1.4倍,並透過優化的核心將Flash Attention的速度提高1.3倍。ROCm 6預計將於本月稍後與MI300 AI加速器一起推出。

AMD Instinct MI300X是最受關注的晶片,因為它針對的是AI領域的NVIDIA Hopper和Intel Gaudi加速器。該晶片僅採用CDNA 3架構設計,並且有很多事情正在發生。該晶片將混合使用5nm和6nm IP,所有這些IP組合起來可提供多達1,530億個電晶體 (MI300X)。

AMD Instinct MI300X 加速器。
從設計開始,主中介層採用被動晶片設計,該晶片使用第四代Infinity Fabric解決方案容納互連層。此中介層總共包含28個晶片,其中包括8個HBM3封裝、HBM 封裝之間的16個虛擬晶片以及4個主動晶片,每個有源晶片都有兩個運算晶片。
AMD-Instinct-MI300X-_2.png

每個採用CDNA 3 GPU架構的GCD共有40個運算單元,相當於2560個核心。總共有8個計算晶片 (GCD),因此總共有320個運算單元和20,480個核心單元。就產量而言,AMD 將縮減這些核心的一小部分,我們將看到總共304個運算單元(每個GPU小晶片38個CU)啟用,總共19,456個處理器。
AMD-MI300X.png

記憶體是另一個巨大的升級領域,MI300X的HBM3容量比其前身MI250X(128GB)增加了50%。為了實現192GB的記憶體池,AMD為MI300X配備了8個HBM3 堆疊,每個堆疊都是12-Hi,同時整合了16Gb IC,每個IC有2GB容量,或每個堆疊有24GB容量。

此記憶體將提供高達5.3TB/s的頻寬和896GB/s的Infinity Fabric頻寬。相比之下NVIDIA即將推出的H200 AI加速器提供141GB容量,而Intel的Gaudi 3將提供144GB容量。大型記憶體池在LLM中非常重要,因為LLM士主要受記憶體限制,AMD可以透過在記憶體領域的領先來展示其AI實力。用於比較:
  • Instinct MI300X - 192GB HBM3
  • Gaudi 3 - 144GB HBM3
  • H200 - 141GB HBM3e
  • MI300A - 128GB HBM3
  • MI250X - 128GB HBM2e
  • H100 - 96GB HBM3
  • Gaudi 2 - 96GB HBM2e

AMD-Instinct-MI300-_-MI300X-Launch-_2.png

耗電量方面AMD Instinct MI300X的額定功率為750W,比Instinct MI250X的500W提升了50%,比NVIDIA H200多了50W。
AMD-Instinct-MI300-AI-Accelerators-Servers-_2-1456x819.png


AMD-Instinct-MI300-AI-Accelerators-Servers-_1-1456x819.png


AMD-Instinct-MI300-AI-Accelerators-Servers-_4-1456x819.png


AMD-Instinct-MI300-AI-Accelerators-Servers-_5-1456x819.png


AMD-Instinct-MI300-AI-Accelerators-Servers-_3-1456x819.png

展示的一種配置是技嘉的G593-ZX1/ZX2系列伺服器,它提供多達8個MI300X GPU加速器和兩個AMD EPYC 9004 CPU。這些系統將配備多達八個3000W電源,總計18000W功率。AMD也展示了自己的Instinct MI300X平台,其中包括8個AI加速器晶片,與NVIDIA HGX H100平台相比提供了一些可靠的數據。AMD分享的一些數據包括:

HBM3記憶體提高2.4倍(1.5 TB與640GB)
計算FLOPS提高1.3倍(10.4 PF與7.9 PF)
類似的雙向頻寬(896GB/s與900GB/s)
類似的單節點環頻寬(448GB/s與450GB/s)
類似的網路功能(400GbE與400 GbE)
類似PCIe協定 (PCIe Gen 5 128GB/s)

目前AMD應該知道他們的競爭對手也在全力推進AI熱潮,NVIDIA已經公佈了2024年Hopper H200 GPU和Blackwell B100 GPU的一些巨大數字,而Intel則準備在2024年推出Guadi 3和Falcon Shores GPU。未來幾年也是如此。甲骨文、戴爾、META和OpenAI等公司已宣佈在其生態系統中支援AMD的Instinct MI300 AI 晶片。

目前可以肯定的是人工智慧客戶將吞噬幾乎所有他們能得到的東西,每個人都會利用這一點。但AMD擁有非常強大的解決方案,其目標不僅是成為NVIDIA的替代品,而且是人工智慧領域的領導者。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-11-13 12:50 , Processed in 0.119040 second(s), 34 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表