Stability AI發布了一篇新部落格文章,提供了 Intel Gaudi 2與NVIDIA H100和A100 GPU加速器之間的AI測試對決。測試表明與NVIDIA的產品相比,Intel的解決方案提供了巨大的價值,對於那些尋求快速且易於使用的解決方案的客戶來說,可以視為受人尊敬的替代方案。
人工智慧公司Stability AI一直在開發可以有效處理各種任務的開放模型。為了測試這一點,Stability AI使用了包括Stable Diffusion 3在內的兩個模型,並在 NVIDIA和Intel最受歡迎的AI加速器之間進行了測試,以了解它們之間的表現如何。
在Stability Diffusion 3(高度流行的文件到影像模型的下一章)中,Intel的Gaudi 2 AI加速器提供了一些出色的結果。此模型的參數範圍從800M到8B,並使用2B參數版本進行測試。為了進行比較,使用了總共16個Intel和NVIDIA加速器的2個節點,每個加速器的批次大小設定為16個,批次大小高達512個。最終結果是Intel Gaudi 2比H100提供了56%的加速80GB GPU,與A100 80GB GPU相比,加速速度提高了2.43倍。
96GB HBM容量也使Intel的Gaudi 2能夠容納每個加速器32個批次大小,總批次大小為512個。這進一步提高了每秒1,254個影像的速度,比16個批次的速度提高了35%,比H100 80GB AI GPU快2.10倍,比A100 80GB AI GPU快3.26倍。
對於Gaudi 2和A100 80GB GPU進一步擴展到32個節點(256個加速器),您會發現Intel解決方案的效能提高了3.16倍,每裝置每秒可輸出49.4個影像,而A100 解決方案僅輸出15.6個圖像。
雖然Gaudi 2 AI加速器的訓練表現非常出色,但由於Tensor-RT優化在過去一年中取得了巨大進步,並且NVIDIA團隊在推理方面不斷取得長足進步,NVIDIA似乎仍然保持著推理領域的王座。據稱在相同的Stable Diffusion 3 8B模型下,與Gaudi 2加速器相比,A100 GPU在這些特定工作負載中產生影像的速度提高了 40%。
在使用Stable Diffusion 3 8B參數模型進行推理測試時,Gaudi 2晶片提供的推理速度與使用基礎PyTorch的Nvidia A100晶片相似。然而透過TensorRT優化,A100 片產生影像的速度比Gaudi 2快40%。預計透過進一步優化,Gaudi 2在此模型上的表現很快就會超過A100。在使用基礎PyTorch對我們的SDXL模型進行的早期測試中Gaudi 2在3.2秒內通過30個步驟生成了1024x1024圖像,而在A100上使用PyTorch需要3.6秒,在A100上使用TensorRT生成圖像需要2.7秒。
Gaudi 2更高的記憶體和快速互連,加上其他設計考慮因素,使其在運行支援下一代媒體模型的Diffusion Transformer架構方面有競爭力。
透過Stability AI
最後我們得到了第二個模型的結果,即Stable Beluga 2.5 70B,它是LLaMA 2 70B的微調版本。在沒有額外優化並在PyTorch下運行的情況下,256個Intel Gaudi 2 AI加速器實現了116,777 tokens/second的平均吞吐量。它比TensorRT下運行的A100 80GB解決方案快約28%。
所有這些都表明人工智慧領域的競爭正在變得多麼激烈,最重要的不是硬體,而是每個特定加速器的軟體和優化。雖然硬體很重要,但如果沒有堅實的基礎來驅動所有這些核心、記憶體和各種人工智慧專用加速器,那麼你在這個領域將會遇到困難。
Intel CEO Pat Gelsinger(右)和執行副總裁兼首席商務官Christoph Schell首次展示了用於深度學習和大規模生成式人工智慧模型的下一代Intel Gaudi 3人工智慧加速器。
NVIDIA很早就知道這一點,這就是為什麼Intel和AMD剛開始鞏固他們的AI軟體套件,而他們是否會追趕這個綠色巨人,或者是否能夠透過快速的軟體發布來解決CUDA/Tensor架構仍然是一個未知數。這些測試表明Intel正在成為一個非常可行的解決方案,不僅作為替代方案,而且作為與NVIDIA產品相比的競爭解決方案,並且透過未來的Gaudi和AI GPU產品,我們可以期待一個更強大的AI市場,為客戶提供出色的解決方案供選擇來自而不是依賴於單獨的公司。
消息來源 |