Pascal架構打造的Tesla P100大幅躍升資料中心處理量
美國國家科學基金會 (NationalScience Foundation) 報告指出,超級電腦運算資源需求超越以往,極大比例的科學家反應利用超級電腦運算進行研究計畫1的時間不敷使用。此外,各種高效能運算 (HPC) 技術越來越需要執行各種密集運算的深度學習應用,而許多研究人員正運用各類人工智慧技術以驅動各個傳統科學領域的進展。
Tesla P100 GPU 加速器 PCIe 版藉由 NVIDIA Pascal™ GPU 架構發揮無與倫比的效能與效率,成功滿足這些運算要求。此外,用戶得以建構出「超級節點」,其吞吐量甚至超越 32 部僅搭載 CPU 的市售節點,並能降低資金與營運成本達70%2。
NVIDIA 公司加速運算部門副總裁Ian Buck表示:「想要跟上研究人員對 HPC 與 AI 超級運算效能永無止境的渴求,唯一的途徑就是加速運算技術。若部署僅搭載 CPU 的系統來滿足這方面的需求必須動用數量可觀的市售型運算節點,這將耗費大幅攀升的成本但效能提升幅度卻不成比例。運用數量較少但效能強大的 TeslaP100 節點不僅能大幅擴充效能,用戶所投入的的資金絕大部分都是花在運算資源上,而不是虛擲在龐大的基礎建設上。」
Tesla P100 PCIe 版推出標準 PCIe 板卡規格,能相容於現今透過 GPU 加速的伺服器。全新產品經過優化設計,能運行各種運算最密集的人工智慧與 HPC 資料中心應用。單台搭載 TeslaP100 的伺服器在執行 AMBER 分子動力學模擬程式時,達到的效能甚至超越 50 個僅搭載 CPU 的伺服器節點,而在執行 VASP材料科學程式時,速度亦超越 32 個僅搭載CPU的節點4。
位於瑞士盧加諾的瑞士國家超級運算中心的歐洲現今最快超級電腦 PizDaint將於今年稍後進行升級,換裝的新核心正是 PCIe 介面的 Tesla P100 加速器。
蘇黎士聯邦理工學院運算物理系教授,同時也是瑞士國家超級運算中心主任的 ThomasSchulthess 表示:「Tesla P100加速器將效能與效率提升至全新境界,成功克服當代許多最重要的運算挑戰。Piz Daint 超級電腦升級成 4,500個 GPU 加速器節點至 Tesla P100 GPU 後,整部系統效能將加倍,將協助研究人員在宇宙學、材料科學、地震學、以及氣象等領域獲得眾多研究突破。」
為混合 HPC 運算作業發揮前所未有的應用效能:雙精度與單精度尖峰效能分別達到 4.7teraflops 與 9.3 teraflops,光是一個 Pascal 架構的 Tesla P100 節點,其運算效能就足以媲美超過 32 部僅搭載 CPU 的市售伺服器。 - CoWoS 封裝的 HBM2記憶體發揮前所未有的效率:Tesla P100 將處理器與資料元件嵌入在一個封包內以發揮前所未有的運算效率。創新的記憶體設計CoWoS(chip on wafer on substrate) 結合 HBM2 記憶體,使記憶體頻寬效能比NVIDIA Maxwell™ 架構高出3倍,達到每秒720GB。
- Page Migration Engine 簡化平行運算程式開發流程:程式開發者能專心進行調校工作,以提升運作效能,減少在資料搬移所花費的時間,並藉由支援虛擬記憶體分頁配置,讓程式的定址空間擴展至超越 GPU 實體記憶體容量以外的範圍。統合記憶體技術能大幅改進生產力,開發者看到的是整個節點一體化的連續記憶體空間。
- 無與倫比的應用支援能力:擁有 410 個 GPU 加速的應用,在全球十大 HPC應用排行榜中囊括九個席位,Tesla平台足堪擔當全球頂尖HPC運算平台
Tesla P100 PCIe版產品規格 - 透過 NVIDIA GPU Boost™ 技術,雙精度運算效能達到 4.7 teraflops,單精度運算效能達到 9.3 teraflops,半精度運算效能達到 18.7 teraflops
- 支援 PCIeGen 3 互連技術 (每秒 32GB的雙向傳輸頻寬)
- 藉由 PageMigration Engine 與統合記憶體提升可編程性
- ECC 校正碼機制提高資料的可靠度
- 伺服器優化的目標以達到最高的資料中心吞吐量與可靠度
- 推出兩種組態版本:
16GB的CoWoS封裝HBM2堆疊式記憶體,記憶體頻寬達到每秒720GB 12GB的CoWoS封裝HBM2堆疊式記憶體,記憶體頻寬達到每秒540GB
供應時程 PCIe 介面系統專屬 NVIDIA Tesla P100 GPU 加速器預計在 2016 年第 4 季開始供貨,屆時將透過NVIDIA 零售商夥伴以及伺服器製造商銷售,包括 Cray、戴爾、惠普、IBM 以及 SGI。
(2) CPU伺服器組態: 雙插槽Intel E5-2680v3處理器內含12個核心;每個節點搭載128GB的DDR4記憶體;FDR IB / GPU伺服器組態:8顆Tesla P100 PCIe版核心搭配雙插槽Intel E5-2680v3處理器 (3) 於SDSU Comet 超級電腦上進行模擬運算 (4) VASP 5.4.1_05Feb2016;Si-HugeDataset. Sixteen;32個節點數據是依據從4節點擴充至8節點的結果比例進行推算 |