AMD推出Instinct MI300X AI GPU加速器，比NVIDIA H100快達60%

sxs112.tw 發表於 2023-12-7 09:25:52

AMD推出Instinct MI300X AI GPU加速器，比NVIDIA H100快達60%

AMD宣布正式推出旗艦AI GPU加速器MI300X，效能比NVIDIA H100提升高達60%。

AMD Instinct MI300等級AI加速器將成為另一個小型晶片動力來源，利用台積電的先進封裝技術。今天AMD不僅宣布推出這些晶片，還分享了MI300X的首個性能測試看起來非常棒。AMD首先使用一般規格作為比較，並使用其CDNA 3加速器提供的功能（與NVIDIA H100相比）：

[*]記憶體容量提高2.4倍
[*]記憶體頻寬提高1.6倍
[*]1.3倍FP8 TFLOPS
[*]1.3倍FP16 TFLOPS
[*]在1v1比較中，速度比H100 (Llama 2 70B) 快達20%
[*]在1v1比較中，速度比H100 (FlashAttention 2) 快達20%
[*]8v8 伺服器中的速度比H100 (Llama 2 70B) 快達40%
[*]在8v8伺服器中，速度比H100 (Bloom 176B) 快達60%

在一般LLM和新TFLOP中，MI300X在FlashAttention-2和Llama 2 70B中提供高達20%的效能提升。從平台角度來看將8x MI300X解決方案與8X H100解決方案進行比較，我們發現Llama 2 70B獲得了更大的40%增益，而Bloom 176B則獲得了60%的增益。

AMD提到在訓練性能方面，MI300X與競爭對手 (H100) 相當，並提供有競爭力的價格/性能，同時在推理工作負載方面表現出色。

最新MI300加速器背後的驅動力是ROCm 6.0。該軟體已更新至最新版本，有強大的新功能，包括支援各種人工智慧工作負載，例如生成式人工智慧和大型語言模型。

新的軟體支援最新的計算格式，例如FP16、Bf16和FP8（包括Sparsity）。這些優化相結合，透過優化的推理庫將vLLM的速度提高高達2.6倍，透過優化的運行時間將HIP Graph的速度提高1.4倍，並透過優化的核心將Flash Attention的速度提高1.3倍。ROCm 6預計將於本月稍後與MI300 AI加速器一起推出。

AMD Instinct MI300X是最受關注的晶片，因為它針對的是AI領域的NVIDIA Hopper和Intel Gaudi加速器。該晶片僅採用CDNA 3架構設計，並且有很多事情正在發生。該晶片將混合使用5nm和6nm IP，所有這些IP組合起來可提供多達1,530億個電晶體 (MI300X)。

AMD Instinct MI300X 加速器。
從設計開始，主中介層採用被動晶片設計，該晶片使用第四代Infinity Fabric解決方案容納互連層。此中介層總共包含28個晶片，其中包括8個HBM3封裝、HBM 封裝之間的16個虛擬晶片以及4個主動晶片，每個有源晶片都有兩個運算晶片。

每個採用CDNA 3 GPU架構的GCD共有40個運算單元，相當於2560個核心。總共有8個計算晶片 (GCD)，因此總共有320個運算單元和20,480個核心單元。就產量而言，AMD 將縮減這些核心的一小部分，我們將看到總共304個運算單元（每個GPU小晶片38個CU）啟用，總共19,456個處理器。

記憶體是另一個巨大的升級領域，MI300X的HBM3容量比其前身MI250X（128GB）增加了50%。為了實現192GB的記憶體池，AMD為MI300X配備了8個HBM3 堆疊，每個堆疊都是12-Hi，同時整合了16Gb IC，每個IC有2GB容量，或每個堆疊有24GB容量。

此記憶體將提供高達5.3TB/s的頻寬和896GB/s的Infinity Fabric頻寬。相比之下NVIDIA即將推出的H200 AI加速器提供141GB容量，而Intel的Gaudi 3將提供144GB容量。大型記憶體池在LLM中非常重要，因為LLM士主要受記憶體限制，AMD可以透過在記憶體領域的領先來展示其AI實力。用於比較：

[*]Instinct MI300X - 192GB HBM3
[*]Gaudi 3 - 144GB HBM3
[*]H200 - 141GB HBM3e
[*]MI300A - 128GB HBM3
[*]MI250X - 128GB HBM2e
[*]H100 - 96GB HBM3
[*]Gaudi 2 - 96GB HBM2e

耗電量方面AMD Instinct MI300X的額定功率為750W，比Instinct MI250X的500W提升了50%，比NVIDIA H200多了50W。

展示的一種配置是技嘉的G593-ZX1/ZX2系列伺服器，它提供多達8個MI300X GPU加速器和兩個AMD EPYC 9004 CPU。這些系統將配備多達八個3000W電源，總計18000W功率。AMD也展示了自己的Instinct MI300X平台，其中包括8個AI加速器晶片，與NVIDIA HGX H100平台相比提供了一些可靠的數據。AMD分享的一些數據包括：

HBM3記憶體提高2.4倍（1.5 TB與640GB）
計算FLOPS提高1.3倍（10.4 PF與7.9 PF）
類似的雙向頻寬（896GB/s與900GB/s）
類似的單節點環頻寬（448GB/s與450GB/s）
類似的網路功能（400GbE與400 GbE）
類似PCIe協定 (PCIe Gen 5 128GB/s)

目前AMD應該知道他們的競爭對手也在全力推進AI熱潮，NVIDIA已經公佈了2024年Hopper H200 GPU和Blackwell B100 GPU的一些巨大數字，而Intel則準備在2024年推出Guadi 3和Falcon Shores GPU。未來幾年也是如此。甲骨文、戴爾、META和OpenAI等公司已宣佈在其生態系統中支援AMD的Instinct MI300 AI 晶片。

目前可以肯定的是人工智慧客戶將吞噬幾乎所有他們能得到的東西，每個人都會利用這一點。但AMD擁有非常強大的解決方案，其目標不僅是成為NVIDIA的替代品，而且是人工智慧領域的領導者。

消息來源

頁: [1]

XFastest 最夯的電腦領域's Archiver

AMD推出Instinct MI300X AI GPU加速器，比NVIDIA H100快達60%