AMD Instinct™ MI100加速器以領先業界的運算效能為HPC與AI帶來顛覆性改變
首款採用全新AMD CDNA架構的GPU加速器為exascale等級時代量身擘劃
AMD(NASDAQ: AMD)發表全新AMD Instinct™ MI100加速器,為全球最快高效能運算(HPC)GPU,同時也是首款突破10 teraflops (FP64)效能的x86伺服器GPU註1。MI100加速器獲得戴爾、技嘉、HPE、美超微(Supermicro)等各大廠商的新款加速運算平台支援,結合AMD EPYC™ CPU以及ROCm™ 4.0開放軟體平台,旨在為即將到來的exascale等級時代推動全新發現。
AMD Instinct MI100 GPU採用全新AMD CDNA架構打造,搭配AMD第2代EPYC處理器,為高效能運算與AI開創出全新等級的加速系統。MI100在高效能運算方面提供高達11.5 TFLOPS的FP64尖峰效能,在AI與機器學習工作負載方面則提供高達46.1 TFLOPS的FP32 Matrix尖峰效能註2。透過全新AMD Matrix Core技術,MI100在執行AI訓練工作負載時能提供比AMD前一代加速器提升近7倍的FP16理論尖峰浮點運算效能註3。
AMD資料中心GPU與加速處理部門全球副總裁Brad McCredie表示,AMD推出AMD Instinct MI100,為全球最快的高效能運算GPU,代表著我們往exascale等級運算的目標邁進一大步。瞄準科學運算中最關鍵的工作負載,最新加速器搭配AMD ROCm開放軟體平台,兩強合併的組合為科學家與研究人員提供更為優越的高效能運算工作基礎。
瞄準Exascale等級時代所打造的開放軟體平台
AMD ROCm開發者軟體為exascale等級運算提供基礎。ROCm作為一個由編譯器、程式開發API與函式庫組成的開源工具集,可以幫助眾多exascale等級軟體開發者打造高效能應用程式。經過優化的ROCm 4.0能為基於MI100的系統提供大規模運算的效能。ROCm 4.0已將編譯器升級至支援開源並統一支援OpenMP® 5.0與HIP。此外,PyTorch與Tensorflow框架都已針對ROCm 4.0進行優化,能配合MI100達到更高的效能註7、8。ROCm 4.0是為高效能運算、機器學習以及人工智慧程式開發者量身打造的最新方案,讓他們開發高效能的可移植軟體。
橡樹嶺國家實驗室領導運算中心科學總監Bronson Messer表示,我們已經率先使用MI100加速器,初步使用效果讓人非常振奮。我們見證到大幅的效能提升,相比其他GPU高出達2到3倍。我們也同樣意識到軟體對效能影響的重要性。開源的ROCm開放軟體平台以及HIP開發者工具能在各種平台上運行,這是我們自推出首款混合CPU/GPU系統以來最關切的特點。
AMD Instinct MI100加速器的關鍵功能與特色包括:
- 全新AMD CDNA架構-AMD CDNA架構提供卓越的效能與功耗效率,為AMD GPU提供exascale等級時代的效能,同時也是MI100加速器的核心。
- 為HPC工作負載提供領先的FP64與FP32效能-提供領先業界的5 TFLOPS尖峰FP64 效能,以及23.1 TFLOPS的尖峰FP32效能,幫助全球各地科學家與研究人員加快在生命科學、能源、金融、學術、政府、國防等領域的新發現註1。
- 為HPC與AI開發的全新Matrix Core技術-針對全範圍單精度與混合精度矩陣運算提供大幅提升效能,其中包括FP32、FP16、bFloat16、Int8、以及Int4等,促進HPC與AI的融合。
- 第2代AMD Infinity Fabric™技術-Instinct MI100使用3個AMD Infinity Fabric™ Link時,可在PCIe® 4.0上提供約2倍的P2P (peer-to-peer)尖峰I/O頻寬,以及每張顯示卡高達340 GB/s的總頻寬註4。在伺服器中,MI100 GPU可配備兩個完全連結的Quad GPU單元(hives),每個單元可為高速資料分享提供高達552 GB/s的P2P I/O頻寬註4。
- 超高速HBM2記憶體-配備32GB高頻寬HBM2記憶體以及2 GHz的時脈頻率,帶來超高的1.23 TB/s記憶體頻寬,支援龐大資料集,協助消弭資料在記憶體存取時的傳輸瓶頸註5。
- 支援業界最新PCIe® Gen 4.0技術-配合最新版PCIe Gen 4.0技術進行開發,在CPU與GPU之間提供高達64GB/s尖峰理論傳輸資料頻寬註6。
伺服器解決方案案例
企業級市場的各大OEM與ODM合作夥伴廠商預計將於今年底問市的新系統中搭載AMD Instinct MI100加速器,其中包括:
戴爾
戴爾科技集團PowerEdge伺服器資深副總裁Ravi Pendekanti表示,Dell EMC PowerEdge伺服器將支援全新AMD Instinct MI100,能更快從數據中分析出洞察。這將協助客戶迅速得到更強大且高效率的HPC與AI結果。AMD一直是協助我們推動資料中心創新的重要合作夥伴。AMD Instinct加速器的高效能特性與PowerEdge伺服器AI與HPC產品陣容完美契合。
技嘉
技嘉NCBU助理副總裁Alan Chen表示,我們很高興再次與AMD合作成為策略夥伴,為客戶提供高效能運算所需的伺服器硬體。AMD Instinct MI100加速器代表著資料中心高效能運算的全新水平,為能源研究、分子動力學、以及深度學習訓練帶來更高的連接性與資料頻寬。作為技嘉產品陣容的全新加速器,我們的客戶將在一系列科學與工業HPC工作負載上獲得更好的效能。
HPE
HPE全球副總裁暨高效能運算部門總經理Bill Mannel表示,客戶運用HPE Apollo系統帶來的特定功能與效能,解決在高效能運算、深度學習以及分析等領域中一系列複雜的資料密集型工作負載。隨著全新HPE Apollo 6500 Gen10 Plus系統的推出,我們進一步推升產品陣容,並藉由支援全新AMD Instinct MI100加速器與AMD第2代EPYC™處理器來改進工作負載效能,發揮更高的連接性與資料處理能力。我們期盼繼續與AMD合作,利用其最新的CPU與加速器來擴大我們的產品方案。
美超微(Supermicro)
美超微現場應用工程與事業發展部資深副總裁Vik Malyala表示,我們非常高興AMD Instinct MI100加速器為高效能運算領域帶來巨大影響。全新CDNA架構帶來的運算力提升,加上MI100帶來的高記憶體容量以及GPU P2P傳輸頻寬,我們的客戶將可獲得各種卓越的解決方案,滿足其加速運算需求以及關鍵企業工作負載。AMD Instinct MI100將為我們多重GPU伺服器以及高效能系統與模組化構建式伺服器解決方案的廣泛產品陣容提供一個卓越的擴充方案。
AMD Instinct™ MI100規格
運算單元 | 串流
處理器
| FP64 TFLOPS
(尖峰)
| FP32 TFLOPS
(尖峰)
| FP32 Matrix TFLOPS
(尖峰)
| FP16/FP16 Matrix
TFLOPS
(尖峰)
| INT4 | INT8 TOPS
(尖峰)
| bFloat16 TFLOPs
(尖峰)
| HBM2 ECC
記憶體
| 記憶體頻寬 | 120 | 7680 | 高達11.5 | 高達23.1 | 高達46.1 | 高達184.6 | 高達184.6 | 高達92.3 | 32 GB | 高達1.23 TB/s |
相關資源
|
組圖打開中,請稍候......
|