AMD宣布正式推出旗艦AI GPU加速器MI300X,效能比NVIDIA H100提升高達60%。
AMD Instinct MI300等級AI加速器將成為另一個小型晶片動力來源,利用台積電的先進封裝技術。今天AMD不僅宣布推出這些晶片,還分享了MI300X的首個性能測試看起來非常棒。AMD首先使用一般規格作為比較,並使用其CDNA 3加速器提供的功能(與NVIDIA H100相比):
- 記憶體容量提高2.4倍
- 記憶體頻寬提高1.6倍
- 1.3倍FP8 TFLOPS
- 1.3倍FP16 TFLOPS
- 在1v1比較中,速度比H100 (Llama 2 70B) 快達20%
- 在1v1比較中,速度比H100 (FlashAttention 2) 快達20%
- 8v8 伺服器中的速度比H100 (Llama 2 70B) 快達40%
- 在8v8伺服器中,速度比H100 (Bloom 176B) 快達60%
在一般LLM和新TFLOP中,MI300X在FlashAttention-2和Llama 2 70B中提供高達20%的效能提升。從平台角度來看將8x MI300X解決方案與8X H100解決方案進行比較,我們發現Llama 2 70B獲得了更大的40%增益,而Bloom 176B則獲得了60%的增益。
AMD提到在訓練性能方面,MI300X與競爭對手 (H100) 相當,並提供有競爭力的價格/性能,同時在推理工作負載方面表現出色。
最新MI300加速器背後的驅動力是ROCm 6.0。該軟體已更新至最新版本,有強大的新功能,包括支援各種人工智慧工作負載,例如生成式人工智慧和大型語言模型。
新的軟體支援最新的計算格式,例如FP16、Bf16和FP8(包括Sparsity)。這些優化相結合,透過優化的推理庫將vLLM的速度提高高達2.6倍,透過優化的運行時間將HIP Graph的速度提高1.4倍,並透過優化的核心將Flash Attention的速度提高1.3倍。ROCm 6預計將於本月稍後與MI300 AI加速器一起推出。
AMD Instinct MI300X是最受關注的晶片,因為它針對的是AI領域的NVIDIA Hopper和Intel Gaudi加速器。該晶片僅採用CDNA 3架構設計,並且有很多事情正在發生。該晶片將混合使用5nm和6nm IP,所有這些IP組合起來可提供多達1,530億個電晶體 (MI300X)。
AMD Instinct MI300X 加速器。
從設計開始,主中介層採用被動晶片設計,該晶片使用第四代Infinity Fabric解決方案容納互連層。此中介層總共包含28個晶片,其中包括8個HBM3封裝、HBM 封裝之間的16個虛擬晶片以及4個主動晶片,每個有源晶片都有兩個運算晶片。
每個採用CDNA 3 GPU架構的GCD共有40個運算單元,相當於2560個核心。總共有8個計算晶片 (GCD),因此總共有320個運算單元和20,480個核心單元。就產量而言,AMD 將縮減這些核心的一小部分,我們將看到總共304個運算單元(每個GPU小晶片38個CU)啟用,總共19,456個處理器。
記憶體是另一個巨大的升級領域,MI300X的HBM3容量比其前身MI250X(128GB)增加了50%。為了實現192GB的記憶體池,AMD為MI300X配備了8個HBM3 堆疊,每個堆疊都是12-Hi,同時整合了16Gb IC,每個IC有2GB容量,或每個堆疊有24GB容量。
此記憶體將提供高達5.3TB/s的頻寬和896GB/s的Infinity Fabric頻寬。相比之下NVIDIA即將推出的H200 AI加速器提供141GB容量,而Intel的Gaudi 3將提供144GB容量。大型記憶體池在LLM中非常重要,因為LLM士主要受記憶體限制,AMD可以透過在記憶體領域的領先來展示其AI實力。用於比較:
- Instinct MI300X - 192GB HBM3
- Gaudi 3 - 144GB HBM3
- H200 - 141GB HBM3e
- MI300A - 128GB HBM3
- MI250X - 128GB HBM2e
- H100 - 96GB HBM3
- Gaudi 2 - 96GB HBM2e
耗電量方面AMD Instinct MI300X的額定功率為750W,比Instinct MI250X的500W提升了50%,比NVIDIA H200多了50W。
展示的一種配置是技嘉的G593-ZX1/ZX2系列伺服器,它提供多達8個MI300X GPU加速器和兩個AMD EPYC 9004 CPU。這些系統將配備多達八個3000W電源,總計18000W功率。AMD也展示了自己的Instinct MI300X平台,其中包括8個AI加速器晶片,與NVIDIA HGX H100平台相比提供了一些可靠的數據。AMD分享的一些數據包括:
HBM3記憶體提高2.4倍(1.5 TB與640GB)
計算FLOPS提高1.3倍(10.4 PF與7.9 PF)
類似的雙向頻寬(896GB/s與900GB/s)
類似的單節點環頻寬(448GB/s與450GB/s)
類似的網路功能(400GbE與400 GbE)
類似PCIe協定 (PCIe Gen 5 128GB/s)
目前AMD應該知道他們的競爭對手也在全力推進AI熱潮,NVIDIA已經公佈了2024年Hopper H200 GPU和Blackwell B100 GPU的一些巨大數字,而Intel則準備在2024年推出Guadi 3和Falcon Shores GPU。未來幾年也是如此。甲骨文、戴爾、META和OpenAI等公司已宣佈在其生態系統中支援AMD的Instinct MI300 AI 晶片。
目前可以肯定的是人工智慧客戶將吞噬幾乎所有他們能得到的東西,每個人都會利用這一點。但AMD擁有非常強大的解決方案,其目標不僅是成為NVIDIA的替代品,而且是人工智慧領域的領導者。
消息來源 |