在Hot Chips 34期間Intel再次詳細介紹了其在Sapphire Rapids HBM伺服器平台上執行的Ponte Vecchio GPU 。
在Intel院士兼首席GPU計算架構師Hong Jiang的演講中,我們從Intel獲得了有關即將到來的伺服器的更多詳細訊息。Ponte Vecchio GPU提供三種配置,從單一 OAM到配備Xe Links的x4系統,可以單獨運行,也可以使用雙插槽Sapphire Rapids平台。
oneAPI 的一些主要功能包括:
- oneAPI和其他工具與加速器設備的接口
- 精細的增益控制和低延遲加速器功能
- 多線程設計
- 對於GPU,作為驅動的一部分提供
因此在性能指標方面,2棧Ponte Vecchio GPU配置(如單一OAM上的配置)能夠提供高達52 TFLOP的 FP64/FP32計算、419 TFLOP的TF32(XMX Float 32)、839 TFLOP BF16/FP16和1678 TFLOPs的INT8計算。
Intel還詳細說明了其最大快取大小和每個快取提供的峰值頻寬。Ponte Vecchio GPU上的寄存器文件大小為64MB,提供419TB/s的頻寬,L1快取也為64MB,提供105TB/s (4:1),L2快取為408MB並提供13TB/s頻寬 (8:1),而HBM記憶體池高達128GB並提供4.2TB/s頻寬 (4:1)。
Intel解釋說更大的L2快取可以為2D-FFT和DNN等工作負載帶來巨大的收益。顯示了完整Ponte Vecchio GPU與配置為80MB和32MB的模組之間的一些性能比較。
但這還不是全部Intel還將執行CUDA和SYCL的NVIDIA Ampere A100與使用SYCL的Ponte Vecchio GPU進行了性能比較。在miniBUDE(一種可以預測配體與目標的結合能的計算工作負載)中,Ponte Vecchio GPU模擬測試結果的速度比Ampere A100快2倍。ExaSMR(用於大型核反應堆設計的小型模組化反應堆)還有另一個性能指標。此處顯示Intel GPU的性能領先於NVIDIA GPU 1.5倍。
有趣的是Intel仍在將其Ponte Vecchio GPU與Ampere A100進行比較,因為NVIDIA已經將其下一代Hopper H100推向市場,並且已經交付給客戶。如果 Chipzilla對其2-2.5倍的性能數據感到如此自信,那麼與Hopper競爭不會有任何困難,除非另有說明。
消息來源 |