sxs112.tw 發表於 2023-4-6 17:30:08

NVIDIA Hopper H100和L4 Ada GPU在MLPerf AI測試中取得破紀錄的性能

NVIDIA剛剛公佈了其Hopper H100和L4 Ada GPU在MLPerf AI測試中的一些破紀錄性能。

今天NVIDIA展示了其在MLPerf Interface 3.0中取得的最新數據。三大亮點是最新的Hopper H100記錄,展示了旗艦AI GPU在過去6個月裡的進步,以及多項軟體優化,我們還可以看到採用Ada圖形架構的L4 GPU公佈的第一批成果。另外Jetson AGX Orin由於類似的軟體和平台功率優化,它變得更快。總結一下,以下是我們今天要看的亮點:

[*]H100創造了新的推理記錄:與之前的提交相比,性能提高了54%
[*]L4 Superchargers主流推理:比T4快3倍以上
[*]Jetson AGX Orin的又一次飛躍:與之前提交的文件相比,效率提高了 57%


對於今天的測試套件,NVIDIA將考察MLPerf Inference v3.0,它保留了6個月前在之前提交中使用的相同工作負載,但添加了網路環境,它可以準確衡量數據如何發送到推理平台以完成工作。NVIDIA還透露在產品的整個生命週期內,該公司可以透過軟體優化將性能提高近2倍,這在過去的GPU(例如Ampere A100)上已經出現過。


得益於軟體優化,NVIDIA H100自推出以來性能有了巨大提升,比上一代提高了4.5倍,從Hopper H100性能測試開始,我們看到了離線和伺服器等級的MLPerf 推理測試。離線測試顯示與Ampere A100相比,性能提高了4.5倍(BERT 99.9%),而在伺服器場景中H100的性能比其前身高出4.0倍,令人印象深刻。

為了達到這種性能水平,NVIDIA透過嵌入在Hopper架構中的轉換器引擎使用FP8性能。它透過分析它發送的所有工作,在每層的基礎上工作,然後證明數據是否可以在FP8中執行而不會影響效率。例如如果數據可以在FP8中執行,那麼它將使用它,如果不能,那麼轉換器引擎將利用FP16 Math Ops和FP32 accumulate來執行數據。由於Ampere沒有轉換器引擎架構,所以它是在FP16+FP32而不是FP8上執行。將他們的數據與Intel最快的第4代Xeon Sapphire Rapids 8480+進行比較,Hopper H100 GPU在所有性能測試中輕鬆擊敗它。

轉到Hopper軟體方面的進展,自H100上市6個月以來,GPU的性能提高了54%,主要是在採用圖像的圖像中。在醫學成像網路3D U-Net中,H100 GPU提升了 31%,即使在如上所示的BERT 99%中,新晶片也比之前提交的測試提升了12%。這是透過利用新的軟體進步來實現的。


NVIDIA的L4也首次出現在MLPerf 中。小型L4 GPU在GTC 2023上作為純Tensor Core產品發布,它也支援Ada架構上的FP8指令,儘管轉換器引擎僅特定於 Hopper GPU。但作為T4的繼任者,L4 GPU不僅是推理優先產品,而且還有多種影片編碼功能,用於採用AI的影片編碼功能。

至於性能,NVIDIA L4 GPU的性能比其前身大幅提升了3.1倍,在BERT中再次達到99.9%,在相同功率的推理測試中全面提升了2倍。作為僅有72W功率的小型設計意味著L4可用於一系列伺服器,而無需重新設計伺服器機殼或電源來承載如此小的卡。與其前身一樣,L4正在尋求成為一種非常受歡迎的伺服器和CSP產品。


最後透過Jetpack SDK為Jetson AGX Orin帶來了最新的性能飛躍。Orin SOC已經推出一年了,NVIDIA展示了顯著的性能提升。僅在性能方面,Orin SOC就獲得了高達81%的提升,而在電源效率方面,該晶片顯示出高達 63% 的性能躍升,這非常引人注目,證明了 NVIDIA 在服務器領域對 GPU 和矽壽命的承諾。

這些性能改進不僅限於Jetson AGX Orin,即使是卡片大小的Orin NX(採用小型設計的16GB板載記憶體)也比Xavier NX提高了3.2倍的性能,這是另一個有了很大的改進,客戶可以期待在未來獲得更多的性能。


在談到MLPerf 時,Deci還宣佈在MLPerf上它在NVIDIA GPU上實現了破紀錄的推理速度。下圖說明了Deci和同一類別中的其他提交者實現的每TeraFLOPs的吞吐量性能。Deci提供了最高的每TeraFLOPs吞吐量,同時還提高了準確性。這種推理效率轉化為顯著的計算能力成本節省和更好的用戶體驗。使用Deci的團隊現在可以在NVIDIA的A100 GPU上執行推理,而不是依賴更昂貴的硬體,與在NVIDIA的H100 GPU上執行相比,吞吐量提高了1.7倍,F1精度提高了0.55倍。這意味著每個推理查詢可節省68%*的成本。


Deci結果的其他好處包括能夠從多GPU換到單個GPU,以及降低推理成本和減少工程工作量。例如使用Deci的ML工程師可以在一張H100卡上實現比8張NVIDIA A100卡組合更高的吞吐量。換句話說借助Deci,團隊可以僅用一張NVIDIA H100卡替換8張NVIDIA A100卡,同時獲得更高的吞吐量和更好的準確性 (+0.47 F1)。

透過使用Deci,以前需要在NVIDIA A100 GPU上執行的團隊現在可以將他們的工作負載遷移到NVIDIA A30 GPU,並以大約三分之一的計算價格實現比以前高3倍的性能。這意味著以顯著降低的推理雲端成本顯著提高性能。

消息來源
頁: [1]
查看完整版本: NVIDIA Hopper H100和L4 Ada GPU在MLPerf AI測試中取得破紀錄的性能