找回密碼註冊
作者: sxs112.tw
查看: 6619
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

SAMSUNG T7 Shield 移動固態硬碟

[*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

GEX PRO 850W玩家開箱體驗分享活動

卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

體驗極速WiFi 7!MSI Roamii BE Lite Mesh

第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

打印 上一主題 下一主題

[處理器 主機板] AMD推出Instinct MI300X AI GPU加速器,比NVIDIA H100快達60%

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2023-12-7 09:25:52 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
AMD宣布正式推出旗艦AI GPU加速器MI300X,效能比NVIDIA H100提升高達60%。

AMD Instinct MI300等級AI加速器將成為另一個小型晶片動力來源,利用台積電的先進封裝技術。今天AMD不僅宣布推出這些晶片,還分享了MI300X的首個性能測試看起來非常棒。AMD首先使用一般規格作為比較,並使用其CDNA 3加速器提供的功能(與NVIDIA H100相比):
AMD-Instinct-MI300X-Launch.png

  • 記憶體容量提高2.4倍
  • 記憶體頻寬提高1.6倍
  • 1.3倍FP8 TFLOPS
  • 1.3倍FP16 TFLOPS
  • 在1v1比較中,速度比H100 (Llama 2 70B) 快達20%
  • 在1v1比較中,速度比H100 (FlashAttention 2) 快達20%
  • 8v8 伺服器中的速度比H100 (Llama 2 70B) 快達40%
  • 在8v8伺服器中,速度比H100 (Bloom 176B) 快達60%

AMD-Instinct-MI300-_-MI300X-Launch-_4-1456x819.png


AMD-Instinct-MI300-_-MI300X-Launch-_3-1456x819.png


AMD-Instinct-MI300-_-MI300X-Launch-_6-1456x819.png

在一般LLM和新TFLOP中,MI300X在FlashAttention-2和Llama 2 70B中提供高達20%的效能提升。從平台角度來看將8x MI300X解決方案與8X H100解決方案進行比較,我們發現Llama 2 70B獲得了更大的40%增益,而Bloom 176B則獲得了60%的增益。
AMD-Instinct-MI300-_-MI300X-Launch-_7.png

AMD提到在訓練性能方面,MI300X與競爭對手 (H100) 相當,並提供有競爭力的價格/性能,同時在推理工作負載方面表現出色。

最新MI300加速器背後的驅動力是ROCm 6.0。該軟體已更新至最新版本,有強大的新功能,包括支援各種人工智慧工作負載,例如生成式人工智慧和大型語言模型。
AMD-ROCm-6-_1-1456x819.png


AMD-ROCm-6-_2-1456x819.png


AMD-ROCm-6-_3-1456x819.png

新的軟體支援最新的計算格式,例如FP16、Bf16和FP8(包括Sparsity)。這些優化相結合,透過優化的推理庫將vLLM的速度提高高達2.6倍,透過優化的運行時間將HIP Graph的速度提高1.4倍,並透過優化的核心將Flash Attention的速度提高1.3倍。ROCm 6預計將於本月稍後與MI300 AI加速器一起推出。

AMD Instinct MI300X是最受關注的晶片,因為它針對的是AI領域的NVIDIA Hopper和Intel Gaudi加速器。該晶片僅採用CDNA 3架構設計,並且有很多事情正在發生。該晶片將混合使用5nm和6nm IP,所有這些IP組合起來可提供多達1,530億個電晶體 (MI300X)。

AMD Instinct MI300X 加速器。
從設計開始,主中介層採用被動晶片設計,該晶片使用第四代Infinity Fabric解決方案容納互連層。此中介層總共包含28個晶片,其中包括8個HBM3封裝、HBM 封裝之間的16個虛擬晶片以及4個主動晶片,每個有源晶片都有兩個運算晶片。
AMD-Instinct-MI300X-_2.png

每個採用CDNA 3 GPU架構的GCD共有40個運算單元,相當於2560個核心。總共有8個計算晶片 (GCD),因此總共有320個運算單元和20,480個核心單元。就產量而言,AMD 將縮減這些核心的一小部分,我們將看到總共304個運算單元(每個GPU小晶片38個CU)啟用,總共19,456個處理器。
AMD-MI300X.png

記憶體是另一個巨大的升級領域,MI300X的HBM3容量比其前身MI250X(128GB)增加了50%。為了實現192GB的記憶體池,AMD為MI300X配備了8個HBM3 堆疊,每個堆疊都是12-Hi,同時整合了16Gb IC,每個IC有2GB容量,或每個堆疊有24GB容量。

此記憶體將提供高達5.3TB/s的頻寬和896GB/s的Infinity Fabric頻寬。相比之下NVIDIA即將推出的H200 AI加速器提供141GB容量,而Intel的Gaudi 3將提供144GB容量。大型記憶體池在LLM中非常重要,因為LLM士主要受記憶體限制,AMD可以透過在記憶體領域的領先來展示其AI實力。用於比較:
  • Instinct MI300X - 192GB HBM3
  • Gaudi 3 - 144GB HBM3
  • H200 - 141GB HBM3e
  • MI300A - 128GB HBM3
  • MI250X - 128GB HBM2e
  • H100 - 96GB HBM3
  • Gaudi 2 - 96GB HBM2e

AMD-Instinct-MI300-_-MI300X-Launch-_2.png

耗電量方面AMD Instinct MI300X的額定功率為750W,比Instinct MI250X的500W提升了50%,比NVIDIA H200多了50W。
AMD-Instinct-MI300-AI-Accelerators-Servers-_2-1456x819.png


AMD-Instinct-MI300-AI-Accelerators-Servers-_1-1456x819.png


AMD-Instinct-MI300-AI-Accelerators-Servers-_4-1456x819.png


AMD-Instinct-MI300-AI-Accelerators-Servers-_5-1456x819.png


AMD-Instinct-MI300-AI-Accelerators-Servers-_3-1456x819.png

展示的一種配置是技嘉的G593-ZX1/ZX2系列伺服器,它提供多達8個MI300X GPU加速器和兩個AMD EPYC 9004 CPU。這些系統將配備多達八個3000W電源,總計18000W功率。AMD也展示了自己的Instinct MI300X平台,其中包括8個AI加速器晶片,與NVIDIA HGX H100平台相比提供了一些可靠的數據。AMD分享的一些數據包括:

HBM3記憶體提高2.4倍(1.5 TB與640GB)
計算FLOPS提高1.3倍(10.4 PF與7.9 PF)
類似的雙向頻寬(896GB/s與900GB/s)
類似的單節點環頻寬(448GB/s與450GB/s)
類似的網路功能(400GbE與400 GbE)
類似PCIe協定 (PCIe Gen 5 128GB/s)

目前AMD應該知道他們的競爭對手也在全力推進AI熱潮,NVIDIA已經公佈了2024年Hopper H200 GPU和Blackwell B100 GPU的一些巨大數字,而Intel則準備在2024年推出Guadi 3和Falcon Shores GPU。未來幾年也是如此。甲骨文、戴爾、META和OpenAI等公司已宣佈在其生態系統中支援AMD的Instinct MI300 AI 晶片。

目前可以肯定的是人工智慧客戶將吞噬幾乎所有他們能得到的東西,每個人都會利用這一點。但AMD擁有非常強大的解決方案,其目標不僅是成為NVIDIA的替代品,而且是人工智慧領域的領導者。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-12-25 16:13 , Processed in 0.096274 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表