sxs112.tw 發表於 2022-10-10 11:37:01

全使用AMD產品的世界上第一台Exascale超級電腦Frontier自啟動以來一直遇到問題

橡樹嶺國家實驗室(ORNL)是Frontier超級電腦的所在地。Frontier被標記為第一個全使用AMD的EPYC Trento CPU和Instinct MI250X計算加速器打造的Exascale級系統。整個系統使用HPE的Slingshot互連。它也被認為是世界上最快的超級電腦,並且是世界上唯一可操作的Exascale級設計。

HPE的Cray EX架構是為大型應用打造的,從2023年開始研究人員將能夠訪問這些應用以協助科學研究。但是如果硬體內部出現多次故障,超級電腦無法執行一整天。ORNL Frontier啟動但最多只能產生1 FP64 ExaFLOPS,而該系統旨在提供1.685 FP64 ExaFLOPS。雖然沒有就具體問題給出任何消息,但一些謠言正在曝光。

首先為HPE Cray超級電腦打造的網路Slingshot互連與HPE集群發生衝突。可惜的是確切問題的具體情況尚不清楚。其次傳聞AMD Instinct MI250X計算GPU和EPYC Trento CPU與Slingshot互連發生衝突。同樣ORNL Frontier超級電腦的項目負責人或研究人員也沒有給出任何官方消息。

能源部 (DOE)負責此項目的Mike Bernhardt表示ORNL Frontier的全面整合將從明年開始提供給研究人員,但並未引述對Frontier超級電腦的全面啟動有任何擔憂或問題。

Bernhardt的位置說明複雜的努力可能導致有關該項目的謠言比比皆是。還要注意的是AMD的MI250X計算GPU僅適用於特定客戶,這就是為什麼缺乏測試來支援傳聞的說法。美國能源部與橡樹嶺的領導計算設施密切合作。在錯過了最初的2022年最後期限後,ORNL Frontier超級電腦計劃於2023年1月1日全面投入執行。

消息來源




clouse 發表於 2022-10-11 00:02:29

軟體設計不良導致:(....
頁: [1]
查看完整版本: 全使用AMD產品的世界上第一台Exascale超級電腦Frontier自啟動以來一直遇到問題