英特爾在美國丹佛Super Computing年度展會(SC23)上展示了藉由AI加速的高效能運算(HPC),產品組合橫跨Intel® Data Center GPU Max系列、Intel® Gaudi®2 AI加速器、Intel® Xeon®處理器,皆展現出HPC和AI工作負載的領先效能。英特爾也分享與美國阿貢國家實驗室(Argonne National Laboratory, ANL)合作Aurora生成式AI計畫的相關進展,內容包括在Aurora超級電腦上參數量高達1兆的GPT-3大型語言模型(LLM)最新發展,這些進展獲益於Max系列GPU獨特架構和Aurora超級電腦的系統能力。英特爾和阿貢國家實驗室合作,透過Aurora早期科學計畫(Aurora Early Science Program)和Exascale運算專案(Exascale Computing Project, ECP)的各項應用,加速科學發展,並同步揭示Intel® Gaudi3 AI加速器和 Falcon Shores 的發展藍圖。
為什麼重要:針對科學研究的生成式AI及其最新效能和基準測試結果,突顯出英特爾提供的客製化解決方案足以滿足HPC和AI客戶的特定需求。英特爾透過軟體定義的方式,採用oneAPI規範與HPC和AI增強工具套件,協助開發人員跨越架構框架,無縫轉移程式碼,加速科學研究。此外,Max系列GPU和CPU也將布署在多組即將上線的超級電腦之中。
阿貢國家實驗室分享了以Aurora超級電腦推動科學研究生成式AI計畫的進展。透過Aurora生成式AI計畫,阿貢國家實驗室、英特爾及合作夥伴將攜手創建最先進的AI模型,奠定科學發展基礎。這些模型將使用超過1兆參數規模的科學文本、程式碼和科學資料集進行訓練,涵蓋多門科學領域。生成式AI計畫將利用Megatron和DeepSpeed的基礎技術,服務生物、癌症研究、氣候科學、宇宙科學和材料科學等多門科學領域。
Intel Max系列GPU架構和Aurora超級電腦系統擁有優秀的性能,只需64節點即可高效率處理1兆個參數的模型,遠低於一般所需。阿貢國家實驗室以256個節點處理四個實例,展現出Aurora平行處理多實例的能力;也能夠加速訓練擴展未來超過1萬節點上數兆token的參數模型。
關於英特爾和阿貢國家實驗室:英特爾和阿貢國家實驗室展示Aurora超級電腦上如何透過系統功能和軟體堆疊實現大規模加速科學研究。工作負載實例包括:
- 透過Connectomics ML實現規模化的大腦連接組重建,在500多個Aurora節點上顯示具競爭力的推論產出率。
- 通用原子和分子電子結構系統(GAMESS)採用 Intel Max GPU可實現超過Nvidia A100兩倍的競爭效能,可針對藥物和催化劑設計的複雜化學過程進行建模,透過Aurora超級電腦解開分子科學的秘密。
- Hardware/Hybrid Accelerated Cosmology Code,(HACC)已在超過1,500個Aurora節點上展示運行,實現具象化理解宇宙物理及演化。
- 藥物篩選AI推論應用是Aurora藥物探索早期科學計畫(ESP)的一部分;僅使用256個節點就能完成超過200億種最常見化學合成物質的篩選,實現巨量化學資料集的高效篩選。
英特爾同時展示新的HPC和AI效能以及跨硬體和應用程式的軟體優化:
- 英特爾和戴爾共同發布STAC-A2的結果,STAC-A2是基於真實市場風險分析工作負載的獨立基準測試套件,展現應用於金融產業的出色表現。與8顆Nvidia H100 PCIe GPU的架構相比,4個顆Intel® Data Center GPU Max 1550達成了高出26%的希臘值10-100k-1260效能,空間效率也提高了3倍。
- 在各種HPC工作負載上,Intel® Data Center GPU Max 1550的效能比Nvidia H100 PCIe卡平均高出36%(36倍)。
- 英特爾Data Center GPU Max系列加強了對AI模型的支援,包括GPT-J和LLAMA2等多種大型語言模型(LLM)。
- Intel® Xeon® CPU Max系列是唯一具有高頻寬記憶體(HBM)的x86處理器,與 AMD Epyc Genoa處理器相比,效能平均提高19%。
- MLCommons2於上週發布了用於訓練AI模型的業界標準MLPerf training v3.1基準測試結果。透過在1訓練GPT-3基準測試中啟用FP8功能,英特爾Gaudi2展示2倍的效能增益。
- 英特爾將於2024年推出 Intel Gaudi3 AI加速器。Gaudi3 AI加速器將基於與 Gaudi2 相同的高效能架構,預計提供4倍運算能力(BF16)、雙倍的網路頻寬,以實現更高的橫向擴展效能,以及5倍的內嵌HBM記憶體,輕鬆滿足對LLM高效能、高效率運算不斷增長的需求,且同時兼顧效能。
- 如同LAMMPS-Copper所展示,第5代Intel® Xeon®處理器將在HPC應用程式上提供高達4倍的效能提升。
- Granite Rapids是下世代Intel Xeon處理器,將透過Intel® Advanced Matrix Extensions(Intel® AMX)提供更多的核心數量和內建加速器,且支援MCR DIMMs。Granite Rapids的DeepMD+LAMMPS AI推論性能將提高9倍。MCR基於DDR5可實現8,800 MT/s的傳輸速度,並在雙插槽系統中實現超過1.5 TB/s的記憶體頻寬,這對於滿足現代CPU快速增長的核心數量並實現效率和靈活性至關重要。
關於oneAPI的新進展:英特爾公布了2024 年軟體開發工具套件的功能,藉此推動由oneAPI多架構程式支援的開放式軟體開發。新工具可協助開發人員在英特爾CPU和GPU上擴展新的AI和HPC功能,涵蓋範圍更廣,包括使用標準Python實現數位負載更快的效能和布署,以及編譯器增強功能,交付近乎完整的SYCL 2020,提高生產力和程式碼卸載。
此外,德州先進運算中心(TACC)宣布oneAPI卓越中心將專注於開發及優化地震成像基準程式碼的計畫。全球共32座英特爾oneAPI卓越中心共同推動此軟體及硬體創新與研究的產業發展。
下一步:英特爾強調其對AI和HPC的投入,凸顯市場的強勁動能。目前採用英特爾Max系列GPU和CPU技術的新超級電腦布署包括Aurora、Dawn Phase 1、SuperMUC-NG Phase 2、Clementina XX1等系統,以及一台以Stability AI為主要客戶,採用英特爾Gaudi2加速器新系統的大型AI超級電腦。
這些動能將奠定英特爾對於AI和HPC的次世代GPU-Falcon Shores的研發基礎。Falcon Shores將採用oneAPI開放標準建構的單一GPU程式設計介面,應用在Intel Gaudi和Intel Xe的IP。讓目前建構在Intel Gaudi AI加速器以及Intel Max系列GPU的應用程式,未來也能輕鬆轉移到Falcon Shores。
|
組圖打開中,請稍候......
|