阿貢國家實驗室的Aurora超級電腦現已完全配備了全部10,624個計算刀片,其中包括63,744個Intel數據中心GPU Max系列處理器和21,248個Intel Xeon CPU Max系列處理器。Aurora是Intel Max系列GPU的首次使用,這是採用最大Xeon Max CPU的系統,也是世界上最大的GPU集群。Intel表示很自豪能夠成為這個歷史性系統的一部分,並為突破性的人工智慧、科學和技術感到興奮。
Aurora是什麼:Aurora超級電腦是Intel、惠普企業 (HPE) 和能源部 (DOE) 的合作成果,旨在釋放高性能計算 (HPC) 三大支柱的潛力:模擬、數據分析和人工智慧 (AI) ) 規模非常大。該系統包含超過1,024個儲存節點(使用DAOS,Intel的分佈式異步對象儲存),提供220TB的容量和31TB的總頻寬,並利用HPE Slingshot 高性能結構。今年晚些時候Aurora進入TOP 500榜單時預計將成為世界上第一台理論峰值性能超過2 Exaflops(1 Exaflop 為1018次或每秒10億次運算)的超級電腦。
Aurora將充分利用Intel Max系列GPU和CPU產品系列的全部功能。Max系列GPU專為滿足動態和新興HPC和AI工作負載的需求而設計,其早期結果展示了在現實科學和工程工作負載上的領先性能,在OpenMC上的性能高達AMD MI250X GPU的2倍,並且接近線性擴展到數百個節點。在許多現實世界的HPC工作負載(例如地球系統建模、能源和製造)中,Intel Xeon Max系列CPU的性能比競爭對手高出40%。
為什麼它很重要:從應對氣候變化到尋找致命疾病的治療方法,研究人員面臨著巨大的挑戰,需要大規模的先進計算技術。Aurora配備滿足HPC和AI社區的需求,提供必要的工具來突破科學探索的界限。阿貢國家實驗室副實驗室主任Rick Stevens表示在我們努力進行驗收測試的同時,我們將使用Aurora來訓練一些大規模的開源生成式AI科學模型。Aurora擁有超過60,000個Intel Max GPU、非常快的I/O系統和全固態大容量儲存系統,是訓練這些模型的完美環境。
怎麼運行的:這一最先進系統的核心是Aurora時尚的矩形刀片、外殼處理器、記憶體、網路和散熱技術。每個刀片由兩個Intel Xeon Max系列CPU和六個Intel Max系列GPU組成。Xeon Max系列產品系列已經在Sunspot(觀看下面的影片)、與Aurora有相同架構的測試台和開發系統上展示了出色的早期性能。開發人員正在利用oneAPI和AI工具來加速HPC和AI工作負載,並增強跨多種架構的代碼可移植性。
消息來源 |