找回密碼註冊
作者: sxs112.tw
查看: 4718
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

Micron Crucial PRO D5 6400超頻版 玩家開

解銷更快的遊戲速度! 利用低延遲遊戲記憶體的強大功能 利用 Cruci ...

O11 VISION COMPACT 玩家開箱體驗分享活動

迷你身形 三面透視打造精緻PC視野新境界O11 VISION COMPACT 強強聯合 ...

2024 三星SD記憶卡 玩家開箱體驗分享活動

2024 PRO Plus SD 記憶卡 [*]為專業人士打造 [*]釋放極限速度 [*]多 ...

打印 上一主題 下一主題

[顯示卡器] Intel Gaudi 2加速器速度比NVIDIA H100快55%,AI測試對決比A100快3倍

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2024-3-12 11:08:40 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
Stability AI發布了一篇新部落格文章,提供了 Intel Gaudi 2與NVIDIA H100和A100 GPU加速器之間的AI測試對決。測試表明與NVIDIA的產品相比,Intel的解決方案提供了巨大的價值,對於那些尋求快速且易於使用的解決方案的客戶來說,可以視為受人尊敬的替代方案。
Intel-Gaudi-vs-NVIDIA-H100-A100-AI-Accelerators-GPUs-Stable-Diffusion-LLMs.jpg

人工智慧公司Stability AI一直在開發可以有效處理各種任務的開放模型。為了測試這一點,Stability AI使用了包括Stable Diffusion 3在內的兩個模型,並在 NVIDIA和Intel最受歡迎的AI加速器之間進行了測試,以了解它們之間的表現如何。
graphic_1.png

在Stability Diffusion 3(高度流行的文件到影像模型的下一章)中,Intel的Gaudi 2 AI加速器提供了一些出色的結果。此模型的參數範圍從800M到8B,並使用2B參數版本進行測試。為了進行比較,使用了總共16個Intel和NVIDIA加速器的2個節點,每個加速器的批次大小設定為16個,批次大小高達512個。最終結果是Intel Gaudi 2比H100提供了56%的加速80GB GPU,與A100 80GB GPU相比,加速速度提高了2.43倍。

96GB HBM容量也使Intel的Gaudi 2能夠容納每個加速器32個批次大小,總批次大小為512個。這進一步提高了每秒1,254個影像的速度,比16個批次的速度提高了35%,比H100 80GB AI GPU快2.10倍,比A100 80GB AI GPU快3.26倍。
graphic_2.png

對於Gaudi 2和A100 80GB GPU進一步擴展到32個節點(256個加速器),您會發現Intel解決方案的效能提高了3.16倍,每裝置每秒可輸出49.4個影像,而A100 解決方案僅輸出15.6個圖像。

雖然Gaudi 2 AI加速器的訓練表現非常出色,但由於Tensor-RT優化在過去一年中取得了巨大進步,並且NVIDIA團隊在推理方面不斷取得長足進步,NVIDIA似乎仍然保持著推理領域的王座。據稱在相同的Stable Diffusion 3 8B模型下,與Gaudi 2加速器相比,A100 GPU在這些特定工作負載中產生影像的速度提高了 40%。
在使用Stable Diffusion 3 8B參數模型進行推理測試時,Gaudi 2晶片提供的推理速度與使用基礎PyTorch的Nvidia A100晶片相似。然而透過TensorRT優化,A100 片產生影像的速度比Gaudi 2快40%。預計透過進一步優化,Gaudi 2在此模型上的表現很快就會超過A100。在使用基礎PyTorch對我們的SDXL模型進行的早期測試中Gaudi 2在3.2秒內通過30個步驟生成了1024x1024圖像,而在A100上使用PyTorch需要3.6秒,在A100上使用TensorRT生成圖像需要2.7秒。

Gaudi 2更高的記憶體和快速互連,加上其他設計考慮因素,使其在運行支援下一代媒體模型的Diffusion Transformer架構方面有競爭力。

透過Stability AI

最後我們得到了第二個模型的結果,即Stable Beluga 2.5 70B,它是LLaMA 2 70B的微調版本。在沒有額外優化並在PyTorch下運行的情況下,256個Intel Gaudi 2 AI加速器實現了116,777 tokens/second的平均吞吐量。它比TensorRT下運行的A100 80GB解決方案快約28%。

所有這些都表明人工智慧領域的競爭正在變得多麼激烈,最重要的不是硬體,而是每個特定加速器的軟體和優化。雖然硬體很重要,但如果沒有堅實的基礎來驅動所有這些核心、記憶體和各種人工智慧專用加速器,那麼你在這個領域將會遇到困難。

Intel CEO Pat Gelsinger(右)和執行副總裁兼首席商務官Christoph Schell首次展示了用於深度學習和大規模生成式人工智慧模型的下一代Intel Gaudi 3人工智慧加速器。
Intel-AIEverywhere-Event-5-scaled.jpg

NVIDIA很早就知道這一點,這就是為什麼Intel和AMD剛開始鞏固他們的AI軟體套件,而他們是否會追趕這個綠色巨人,或者是否能夠透過快速的軟體發布來解決CUDA/Tensor架構仍然是一個未知數。這些測試表明Intel正在成為一個非常可行的解決方案,不僅作為替代方案,而且作為與NVIDIA產品相比的競爭解決方案,並且透過未來的Gaudi和AI GPU產品,我們可以期待一個更強大的AI市場,為客戶提供出色的解決方案供選擇來自而不是依賴於單獨的公司。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-11-14 14:33 , Processed in 0.079509 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表