NVIDIA的Blackwell AI晶片在MLPerf上確保了創紀錄的性能,而Hopper H100和H200晶片則繼續變得更加強大,超過了MI300X。
NVIDIA的Blackwell AI晶片終於在MLPerf v4.1中創紀錄地首次亮相,在所有測試中都取得了創紀錄的性能數據。 NVIDIA Blackwell AI晶片將於今年稍後登陸資料中心,預計將成為市場上最強大的AI解決方案,世代效能提升高達4倍。
今天NVIDIA宣布其在MLPerf Inference v4.1中實現了所有AI測試的最高性能,其中包括:
- Llama 2 70B (Dense LLM)
- Mixtral 8x7B MoE (Sparse Mixture of Experts LLM)
- Stable Diffusion (Text-to-Image)
- DLRMv2 (Recommendation)
- BERT (NLP)
- RetinaNet (Object Detection)
- GPT-J 6B (Dense LLM)
- 3D U-Net (Medical Image Segmentation)
- ResNet-50 v1.5 (Image Classification)
在Llama 2 70B中,NVIDIA的Blackwell AI解決方案比Hopper H100晶片提供了巨大的增強。在伺服器工作負載中,單一Blackwell GPU的效能提高了4倍(10,756 Tokens/秒),而在離線場景中,單一Blackwell GPU的效能提高了3.7倍,達到11,264 Tokens/秒。 NVIDIA也首次公開測量了在Blackwell GPU上運行的FP4的效能。
雖然Blackwell確實如其所承諾的那樣強大,但NVIDIA的Hopper透過CUDA堆疊進行了更多優化,繼續變得更加強大。與競爭對手相比,H200和H100晶片在每項測試中都提供領先的性能,並且在最新的測試(例如560億參數Mixtral 8x7B LLM)中也是如此。
配備8個Hopper H200 GPU和NVSwitch的NVIDIA HGX H200在Llama 2 70B中提供了強勁的性能提升,Tokens生成速度為34,864(離線)和32,790(伺服器),功耗為1000W,31,303(離線)和30,303(離線)和30,303 (伺服器)Tokens/第二個是700W配置。
這比Hopper H100解決方案提升了50%。與AMD Instinct MI300X解決方案相比,H100在Llama 2中仍提供更好的AI效能。效能的提升得益於適用於Hopper晶片的軟體最佳化以及與H200晶片相關的80%更高的記憶體容量和40%的更高頻寬。
在使用多GPU測試伺服器的 Mixtral 8x7B中,NVIDIA H100和H200分別提供高達59,022和52,416個Tokens/秒的輸出。 AMD的Instinct MI300X在這個特定的工作負載中似乎沒有發揮作用,因為AMD沒有提交任何意見。 Stable Diffusion XL的情況也是如此,新的全新改進將Hopper AI晶片的性能提高了27%,而 AMD尚未在此特定工作負載下提交MLPerf。
NVIDIA對其軟體進行微調的努力已獲得巨大回報。該公司在每個MLPerf版本中都看到了重大提升,並且直接向在伺服器中運行Hopper GPU的客戶提供了優勢。
人工智慧和資料中心並不全都與硬體有關,它只是一個元件,但另一個同樣重要(如果不是更重要)的元件是軟體。如果沒有適當的軟體來支援,那麼擁有最強大的硬體是沒有意義的,而投資數百萬美元用於人工智慧基礎設施的公司將著眼於整個生態系統。
NVIDIA擁有良好的生態系統,並已準備好向世界各地的企業和人工智慧龍頭推廣,這就是該公司現在透過各個合作夥伴宣布全面推出HGX H200的原因。繼續優化的不僅僅是Blackwell或Hopper這樣的重量級產品。自從提交MLPerf v4.0以來,甚至Jetson AG Orin等Edge解決方案也實現了6倍的提升,這對Edge的GenAI 工作負載產生了巨大影響。
Blackwell在推出前就展示瞭如此強大的性能,我們可以期待為AI量身定制的新架構變得更加強大,就像Hopper一樣,並在明年晚些時候將優化優勢傳遞給 Blackwell Ultra。
消息來源 |