英特爾加速 HPC 和 AI 技術應用於科學研究發展

lin.sinchen · 發表於 2023-11-21 18:16:56

英特爾在美國丹佛Super Computing年度展會（SC23）上展示了藉由AI加速的高效能運算（HPC），產品組合橫跨Intel® Data Center GPU Max系列、Intel® Gaudi®2 AI加速器、Intel® Xeon®處理器，皆展現出HPC和AI工作負載的領先效能。英特爾也分享與美國阿貢國家實驗室（Argonne National Laboratory, ANL）合作Aurora生成式AI計畫的相關進展，內容包括在Aurora超級電腦上參數量高達1兆的GPT-3大型語言模型（LLM）最新發展，這些進展獲益於Max系列GPU獨特架構和Aurora超級電腦的系統能力。英特爾和阿貢國家實驗室合作，透過Aurora早期科學計畫（Aurora Early Science Program）和Exascale運算專案（Exascale Computing Project, ECP）的各項應用，加速科學發展，並同步揭示Intel® Gaudi3 AI加速器和 Falcon Shores 的發展藍圖。

為什麼重要：針對科學研究的生成式AI及其最新效能和基準測試結果，突顯出英特爾提供的客製化解決方案足以滿足HPC和AI客戶的特定需求。英特爾透過軟體定義的方式，採用oneAPI規範與HPC和AI增強工具套件，協助開發人員跨越架構框架，無縫轉移程式碼，加速科學研究。此外，Max系列GPU和CPU也將布署在多組即將上線的超級電腦之中。

阿貢國家實驗室分享了以Aurora超級電腦推動科學研究生成式AI計畫的進展。透過Aurora生成式AI計畫，阿貢國家實驗室、英特爾及合作夥伴將攜手創建最先進的AI模型，奠定科學發展基礎。這些模型將使用超過1兆參數規模的科學文本、程式碼和科學資料集進行訓練，涵蓋多門科學領域。生成式AI計畫將利用Megatron和DeepSpeed的基礎技術，服務生物、癌症研究、氣候科學、宇宙科學和材料科學等多門科學領域。

Intel Max系列GPU架構和Aurora超級電腦系統擁有優秀的性能，只需64節點即可高效率處理1兆個參數的模型，遠低於一般所需。阿貢國家實驗室以256個節點處理四個實例，展現出Aurora平行處理多實例的能力；也能夠加速訓練擴展未來超過1萬節點上數兆token的參數模型。

關於英特爾和阿貢國家實驗室：英特爾和阿貢國家實驗室展示Aurora超級電腦上如何透過系統功能和軟體堆疊實現大規模加速科學研究。工作負載實例包括：

透過Connectomics ML實現規模化的大腦連接組重建，在500多個Aurora節點上顯示具競爭力的推論產出率。
通用原子和分子電子結構系統（GAMESS）採用 Intel Max GPU可實現超過Nvidia A100兩倍的競爭效能，可針對藥物和催化劑設計的複雜化學過程進行建模，透過Aurora超級電腦解開分子科學的秘密。
Hardware/Hybrid Accelerated Cosmology Code,（HACC）已在超過1,500個Aurora節點上展示運行，實現具象化理解宇宙物理及演化。
藥物篩選AI推論應用是Aurora藥物探索早期科學計畫（ESP）的一部分；僅使用256個節點就能完成超過200億種最常見化學合成物質的篩選，實現巨量化學資料集的高效篩選。

英特爾同時展示新的HPC和AI效能以及跨硬體和應用程式的軟體優化：

英特爾和戴爾共同發布STAC-A2的結果，STAC-A2是基於真實市場風險分析工作負載的獨立基準測試套件，展現應用於金融產業的出色表現。與8顆Nvidia H100 PCIe GPU的架構相比，4個顆Intel® Data Center GPU Max 1550達成了高出26%的希臘值10-100k-1260效能，空間效率也提高了3倍。
在各種HPC工作負載上，Intel® Data Center GPU Max 1550的效能比Nvidia H100 PCIe卡平均高出36%（36倍）。
英特爾Data Center GPU Max系列加強了對AI模型的支援，包括GPT-J和LLAMA2等多種大型語言模型（LLM）。
Intel® Xeon® CPU Max系列是唯一具有高頻寬記憶體（HBM）的x86處理器，與 AMD Epyc Genoa處理器相比，效能平均提高19%。
MLCommons2於上週發布了用於訓練AI模型的業界標準MLPerf training v3.1基準測試結果。透過在1訓練GPT-3基準測試中啟用FP8功能，英特爾Gaudi2展示2倍的效能增益。
英特爾將於2024年推出 Intel Gaudi3 AI加速器。Gaudi3 AI加速器將基於與 Gaudi2 相同的高效能架構，預計提供4倍運算能力（BF16）、雙倍的網路頻寬，以實現更高的橫向擴展效能，以及5倍的內嵌HBM記憶體，輕鬆滿足對LLM高效能、高效率運算不斷增長的需求，且同時兼顧效能。
如同LAMMPS-Copper所展示，第5代Intel® Xeon®處理器將在HPC應用程式上提供高達4倍的效能提升。
Granite Rapids是下世代Intel Xeon處理器，將透過Intel® Advanced Matrix Extensions（Intel® AMX）提供更多的核心數量和內建加速器，且支援MCR DIMMs。Granite Rapids的DeepMD+LAMMPS AI推論性能將提高9倍。MCR基於DDR5可實現8,800 MT/s的傳輸速度，並在雙插槽系統中實現超過1.5 TB/s的記憶體頻寬，這對於滿足現代CPU快速增長的核心數量並實現效率和靈活性至關重要。

關於oneAPI的新進展：英特爾公布了2024 年軟體開發工具套件的功能，藉此推動由oneAPI多架構程式支援的開放式軟體開發。新工具可協助開發人員在英特爾CPU和GPU上擴展新的AI和HPC功能，涵蓋範圍更廣，包括使用標準Python實現數位負載更快的效能和布署，以及編譯器增強功能，交付近乎完整的SYCL 2020，提高生產力和程式碼卸載。

此外，德州先進運算中心（TACC）宣布oneAPI卓越中心將專注於開發及優化地震成像基準程式碼的計畫。全球共32座英特爾oneAPI卓越中心共同推動此軟體及硬體創新與研究的產業發展。

下一步：英特爾強調其對AI和HPC的投入，凸顯市場的強勁動能。目前採用英特爾Max系列GPU和CPU技術的新超級電腦布署包括Aurora、Dawn Phase 1、SuperMUC-NG Phase 2、Clementina XX1等系統，以及一台以Stability AI為主要客戶，採用英特爾Gaudi2加速器新系統的大型AI超級電腦。
這些動能將奠定英特爾對於AI和HPC的次世代GPU－Falcon Shores的研發基礎。Falcon Shores將採用oneAPI開放標準建構的單一GPU程式設計介面，應用在Intel Gaudi和Intel Xe的IP。讓目前建構在Intel Gaudi AI加速器以及Intel Max系列GPU的應用程式，未來也能輕鬆轉移到Falcon Shores。

文章標籤：

文章分享：

+ MORE精選文章：

相關帖子

英特爾研發費用超英偉達和AMD總和， ...

Intel Core Ultra 285K / 265K / 245 ...

1.2 倍每瓦效能！Intel Core Ultra 2 ...

+ MORE活動推薦：

極致效能為遊戲而生 990 PRO SSD 玩家體驗

Micron Crucial PRO D5 6400超頻版玩家開

O11 VISION COMPACT 玩家開箱體驗分享活動

2024 三星SD記憶卡玩家開箱體驗分享活動

[業界新聞] 英特爾加速 HPC 和 AI 技術應用於科學研究發展