NVIDIA發布了在全球最快的AI GPU(例如Hopper H100、GH200和L4)上運行的官方MLPerf Inference v3.1性能測試。
今天NVIDIA發布了MLPerf Inference v3.1測試套件中的首個性能測試,該套件涵蓋了人工智慧用例的各種行業標準測試。這些工作負載包括推薦器、自然語言處理、大型語言模型、語音辨識、影像分類、醫學成像和對象檢測。
兩組新的測試包括DLRM-DCNv2和GPT-J 6B。第一個是真實推薦器的更大數據集表示,它使用新的跨層算法來提供更好的推薦,並且參數數量是之前版本的兩倍。另一方面GPT-J是一種小型LLM,其基礎模型是開源的,於2021年發布。此工作負載專為摘要任務而設計。
NVIDIA還展示了應用的概念性現實工作負載管道,該應用利用一系列AI模型來實現所需的查詢或任務。所有型號都將在NGC平台上提供。
在性能方面,NVIDIA H100在整個MLPerf v3.1推理集(離線)上與來自Intel (HabanaLabs)、高通 (Cloud AI 100) 和Google (TPUv5e) 的競爭對手進行了測試。NVIDIA在所有工作負載中提供了領先的性能。
為了讓事情變得更有趣,該公司表示這些基準是在大約一個月前實現的,因為MLPerf需要至少1個月的提交時間才能發布最終結果。從那時起NVIDIA提出了一項名為TensorRT-LLM的新技術,該技術將性能進一步提升了8倍。預計NVIDIA也將很快提交TensorRT-LLM的MLPerf測試。
但回到測試,NVIDIA的GH200 Grace Hopper Superchip也在MLPerf上首次提交,與H100 GPU相比,性能提高了17%。這種性能提升主要來自更高的VRAM 容量(96GB HBM3與80GB HBM3)和4TB/s頻寬。
Hopper GH200 GPU採用與H100相同的核心配置,但有助於提升性能的一個關鍵領域是Grace CPU和Hopper GPU之間的自動動力轉向。由於Superchip平台在同一板上為CPU和GPU提供電力傳輸,因此客戶基本上可以在任何特定工作負載中將電力從CPU切換到GPU,反之亦然。GPU上的額外能量可以使晶片時脈更快、運行速度更快。NVIDIA還提到這裡的Superchip運行的是1000W配置。
NVIDIA GH200 Grace Hopper Superchip在MLPerf行業測試中首次亮相,它運行了所有數據中心推理測試,擴展了NVIDIA H100 Tensor Core GPU的領先性能。總體結果顯示了NVIDIA AI平台從雲端到網絡邊緣的卓越性能和多功能性。
GH200將Hopper GPU與Grace CPU連接在一個超級晶片中。該組合提供了更多記憶體、頻寬以及在CPU和GPU之間自動轉移功率以優化性能的能力。另外配備8個H100 GPU的H100系統在本輪的每個MLPerf推理測試中提供了最高的吞吐量。
Grace Hopper Superchips和H100 GPU在MLPerf的所有數據中心測試中處於領先地位,包括計算機視覺推理、語音辨識和醫學成像,以及要求更高的推薦系統用例和生成AI中使用的大型語言模型 (LLM)。總體而言這些結果延續了NVIDIA自2018年推出MLPerf測試以來在每一輪人工智慧訓練和推理方面表現出領先地位的記錄。
via NVIDIA
採用Ada Lovelace GPU架構的NVIDIA L4 GPU也在MLPerf v3.1中強勢亮相。它不僅能夠運行所有工作負載,而且效率非常高,在FHFL外形尺寸下,TDP為72W,運行速度比現代x86 CPU(Intel 8380雙路)快6倍。L4 GPU還將視訊/AI任務(例如解碼、推理、編碼)提高了120倍。最後得益於軟體更新,NVIDIA Jetson Orion的性能提升了高達84%,這體現了NVIDIA將軟體提升到新水平的承諾。
消息來源 |