NVIDIA Hopper H100和L4 Ada GPU在MLPerf AI測試中取得破紀錄的性能

sxs112.tw · 發表於 2023-4-6 17:30:08

NVIDIA剛剛公佈了其Hopper H100和L4 Ada GPU在MLPerf AI測試中的一些破紀錄性能。

NVIDIA-L4-GPU-gigapixel-standard-scale-4_00x-scaled.jpeg

今天NVIDIA展示了其在MLPerf Interface 3.0中取得的最新數據。三大亮點是最新的Hopper H100記錄，展示了旗艦AI GPU在過去6個月裡的進步，以及多項軟體優化，我們還可以看到採用Ada圖形架構的L4 GPU公佈的第一批成果。另外Jetson AGX Orin由於類似的軟體和平台功率優化，它變得更快。總結一下，以下是我們今天要看的亮點：

H100創造了新的推理記錄：與之前的提交相比，性能提高了54%
L4 Superchargers主流推理：比T4快3倍以上
Jetson AGX Orin的又一次飛躍：與之前提交的文件相比，效率提高了 57%

對於今天的測試套件，NVIDIA將考察MLPerf Inference v3.0，它保留了6個月前在之前提交中使用的相同工作負載，但添加了網路環境，它可以準確衡量數據如何發送到推理平台以完成工作。NVIDIA還透露在產品的整個生命週期內，該公司可以透過軟體優化將性能提高近2倍，這在過去的GPU（例如Ampere A100）上已經出現過。

NVIDIA-MLPerf-Hopper-H100-L4-Ada-GPUs-Performance-Benchmarks-_1.png

得益於軟體優化，NVIDIA H100自推出以來性能有了巨大提升，比上一代提高了4.5倍，從Hopper H100性能測試開始，我們看到了離線和伺服器等級的MLPerf 推理測試。離線測試顯示與Ampere A100相比，性能提高了4.5倍（BERT 99.9%），而在伺服器場景中H100的性能比其前身高出4.0倍，令人印象深刻。

NVIDIA-MLPerf-Hopper-H100-L4-Ada-GPUs-Performance-Benchmarks-_3.png

為了達到這種性能水平，NVIDIA透過嵌入在Hopper架構中的轉換器引擎使用FP8性能。它透過分析它發送的所有工作，在每層的基礎上工作，然後證明數據是否可以在FP8中執行而不會影響效率。例如如果數據可以在FP8中執行，那麼它將使用它，如果不能，那麼轉換器引擎將利用FP16 Math Ops和FP32 accumulate來執行數據。由於Ampere沒有轉換器引擎架構，所以它是在FP16+FP32而不是FP8上執行。將他們的數據與Intel最快的第4代Xeon Sapphire Rapids 8480+進行比較，Hopper H100 GPU在所有性能測試中輕鬆擊敗它。

轉到Hopper軟體方面的進展，自H100上市6個月以來，GPU的性能提高了54%，主要是在採用圖像的圖像中。在醫學成像網路3D U-Net中，H100 GPU提升了 31%，即使在如上所示的BERT 99%中，新晶片也比之前提交的測試提升了12%。這是透過利用新的軟體進步來實現的。

NVIDIA-MLPerf-Hopper-H100-L4-Ada-GPUs-Performance-Benchmarks-_4.png

NVIDIA的L4也首次出現在MLPerf 中。小型L4 GPU在GTC 2023上作為純Tensor Core產品發布，它也支援Ada架構上的FP8指令，儘管轉換器引擎僅特定於 Hopper GPU。但作為T4的繼任者，L4 GPU不僅是推理優先產品，而且還有多種影片編碼功能，用於採用AI的影片編碼功能。

NVIDIA-MLPerf-Hopper-H100-L4-Ada-GPUs-Performance-Benchmarks-_5.png

至於性能，NVIDIA L4 GPU的性能比其前身大幅提升了3.1倍，在BERT中再次達到99.9%，在相同功率的推理測試中全面提升了2倍。作為僅有72W功率的小型設計意味著L4可用於一系列伺服器，而無需重新設計伺服器機殼或電源來承載如此小的卡。與其前身一樣，L4正在尋求成為一種非常受歡迎的伺服器和CSP產品。

最後透過Jetpack SDK為Jetson AGX Orin帶來了最新的性能飛躍。Orin SOC已經推出一年了，NVIDIA展示了顯著的性能提升。僅在性能方面，Orin SOC就獲得了高達81%的提升，而在電源效率方面，該晶片顯示出高達 63% 的性能躍升，這非常引人注目，證明了 NVIDIA 在服務器領域對 GPU 和矽壽命的承諾。

NVIDIA-MLPerf-Hopper-H100-L4-Ada-GPUs-Performance-Benchmarks-_7.png

這些性能改進不僅限於Jetson AGX Orin，即使是卡片大小的Orin NX（採用小型設計的16GB板載記憶體）也比Xavier NX提高了3.2倍的性能，這是另一個有了很大的改進，客戶可以期待在未來獲得更多的性能。

NVIDIA-MLPerf-Hopper-H100-L4-Ada-GPUs-Performance-Benchmarks-_8.png

在談到MLPerf 時，Deci還宣佈在MLPerf上它在NVIDIA GPU上實現了破紀錄的推理速度。下圖說明了Deci和同一類別中的其他提交者實現的每TeraFLOPs的吞吐量性能。Deci提供了最高的每TeraFLOPs吞吐量，同時還提高了準確性。這種推理效率轉化為顯著的計算能力成本節省和更好的用戶體驗。使用Deci的團隊現在可以在NVIDIA的A100 GPU上執行推理，而不是依賴更昂貴的硬體，與在NVIDIA的H100 GPU上執行相比，吞吐量提高了1.7倍，F1精度提高了0.55倍。這意味著每個推理查詢可節省68%*的成本。

Deci結果的其他好處包括能夠從多GPU換到單個GPU，以及降低推理成本和減少工程工作量。例如使用Deci的ML工程師可以在一張H100卡上實現比8張NVIDIA A100卡組合更高的吞吐量。換句話說借助Deci，團隊可以僅用一張NVIDIA H100卡替換8張NVIDIA A100卡，同時獲得更高的吞吐量和更好的準確性 (+0.47 F1)。

透過使用Deci，以前需要在NVIDIA A100 GPU上執行的團隊現在可以將他們的工作負載遷移到NVIDIA A30 GPU，並以大約三分之一的計算價格實現比以前高3倍的性能。這意味著以顯著降低的推理雲端成本顯著提高性能。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

NP5 玩家開箱體驗分享活動

ROG電能狂潮電源供應器開箱體驗活動

Micron Crucial P310 1TB (Gen4 2280 M.2)

FIT V DDR5 電競/超頻記憶體玩家開箱體驗

[顯示卡器] NVIDIA Hopper H100和L4 Ada GPU在MLPerf AI測試中取得破紀錄的性能