找回密碼註冊
作者: sxs112.tw
查看: 4992
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    SAMSUNG T7 Shield 移動固態硬碟

    [*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

    GEX PRO 850W玩家開箱體驗分享活動

    卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

    體驗極速WiFi 7!MSI Roamii BE Lite Mesh

    第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

    極致效能 為遊戲而生 990 PRO SSD 玩家體驗

    [*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

    打印 上一主題 下一主題

    [顯示卡器] Intel Gaudi 2加速器速度比NVIDIA H100快55%,AI測試對決比A100快3倍

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    sxs112.tw 發表於 2024-3-12 11:08:40 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
    Stability AI發布了一篇新部落格文章,提供了 Intel Gaudi 2與NVIDIA H100和A100 GPU加速器之間的AI測試對決。測試表明與NVIDIA的產品相比,Intel的解決方案提供了巨大的價值,對於那些尋求快速且易於使用的解決方案的客戶來說,可以視為受人尊敬的替代方案。
    Intel-Gaudi-vs-NVIDIA-H100-A100-AI-Accelerators-GPUs-Stable-Diffusion-LLMs.jpg

    人工智慧公司Stability AI一直在開發可以有效處理各種任務的開放模型。為了測試這一點,Stability AI使用了包括Stable Diffusion 3在內的兩個模型,並在 NVIDIA和Intel最受歡迎的AI加速器之間進行了測試,以了解它們之間的表現如何。
    graphic_1.png

    在Stability Diffusion 3(高度流行的文件到影像模型的下一章)中,Intel的Gaudi 2 AI加速器提供了一些出色的結果。此模型的參數範圍從800M到8B,並使用2B參數版本進行測試。為了進行比較,使用了總共16個Intel和NVIDIA加速器的2個節點,每個加速器的批次大小設定為16個,批次大小高達512個。最終結果是Intel Gaudi 2比H100提供了56%的加速80GB GPU,與A100 80GB GPU相比,加速速度提高了2.43倍。

    96GB HBM容量也使Intel的Gaudi 2能夠容納每個加速器32個批次大小,總批次大小為512個。這進一步提高了每秒1,254個影像的速度,比16個批次的速度提高了35%,比H100 80GB AI GPU快2.10倍,比A100 80GB AI GPU快3.26倍。
    graphic_2.png

    對於Gaudi 2和A100 80GB GPU進一步擴展到32個節點(256個加速器),您會發現Intel解決方案的效能提高了3.16倍,每裝置每秒可輸出49.4個影像,而A100 解決方案僅輸出15.6個圖像。

    雖然Gaudi 2 AI加速器的訓練表現非常出色,但由於Tensor-RT優化在過去一年中取得了巨大進步,並且NVIDIA團隊在推理方面不斷取得長足進步,NVIDIA似乎仍然保持著推理領域的王座。據稱在相同的Stable Diffusion 3 8B模型下,與Gaudi 2加速器相比,A100 GPU在這些特定工作負載中產生影像的速度提高了 40%。
    在使用Stable Diffusion 3 8B參數模型進行推理測試時,Gaudi 2晶片提供的推理速度與使用基礎PyTorch的Nvidia A100晶片相似。然而透過TensorRT優化,A100 片產生影像的速度比Gaudi 2快40%。預計透過進一步優化,Gaudi 2在此模型上的表現很快就會超過A100。在使用基礎PyTorch對我們的SDXL模型進行的早期測試中Gaudi 2在3.2秒內通過30個步驟生成了1024x1024圖像,而在A100上使用PyTorch需要3.6秒,在A100上使用TensorRT生成圖像需要2.7秒。

    Gaudi 2更高的記憶體和快速互連,加上其他設計考慮因素,使其在運行支援下一代媒體模型的Diffusion Transformer架構方面有競爭力。

    透過Stability AI

    最後我們得到了第二個模型的結果,即Stable Beluga 2.5 70B,它是LLaMA 2 70B的微調版本。在沒有額外優化並在PyTorch下運行的情況下,256個Intel Gaudi 2 AI加速器實現了116,777 tokens/second的平均吞吐量。它比TensorRT下運行的A100 80GB解決方案快約28%。

    所有這些都表明人工智慧領域的競爭正在變得多麼激烈,最重要的不是硬體,而是每個特定加速器的軟體和優化。雖然硬體很重要,但如果沒有堅實的基礎來驅動所有這些核心、記憶體和各種人工智慧專用加速器,那麼你在這個領域將會遇到困難。

    Intel CEO Pat Gelsinger(右)和執行副總裁兼首席商務官Christoph Schell首次展示了用於深度學習和大規模生成式人工智慧模型的下一代Intel Gaudi 3人工智慧加速器。
    Intel-AIEverywhere-Event-5-scaled.jpg

    NVIDIA很早就知道這一點,這就是為什麼Intel和AMD剛開始鞏固他們的AI軟體套件,而他們是否會追趕這個綠色巨人,或者是否能夠透過快速的軟體發布來解決CUDA/Tensor架構仍然是一個未知數。這些測試表明Intel正在成為一個非常可行的解決方案,不僅作為替代方案,而且作為與NVIDIA產品相比的競爭解決方案,並且透過未來的Gaudi和AI GPU產品,我們可以期待一個更強大的AI市場,為客戶提供出色的解決方案供選擇來自而不是依賴於單獨的公司。

    消息來源
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2024-12-22 15:15 , Processed in 0.079017 second(s), 33 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表