找回密碼註冊
作者: sxs112.tw
查看: 4381
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

極致效能優化 三星990 EVO 玩家體驗分享活

[*]進化日常效能 極致效能優化、電源效率提升、廣泛的通用 ...

FSP VITA GM White 玩家開箱體驗分享活動

中秋佳節,全漢加碼活動來囉~ [*]符合最新 Intel ® ATX 3.1電源設 ...

FV150 RGB 玩家開箱體驗分享活動

粉紅控趕快看過來.......廠商加碼活動來囉~ 心動了嗎? 想取得體驗 ...

海韻創新技術分享會 會後分享--得獎公告

頭獎:dwi0342 https://www.xfastest.com/thread-290899-1-1.html ...

打印 上一主題 下一主題

[軟體遊戲] NVIDIA TensorRT-LLM極大地提升了大型語言模型,Hopper GPU上的增益高達8倍

[複製鏈接]| 回復
跳轉到指定樓層
1#
NVIDIA今天宣布推出全新的AI軟體,稱為TensorRT LLM,可提高GPU上的大型語言模型性能。
NVIDIA-TensorRT-LLM-Hopper-AI-GPUs.png

NVIDIA宣布推出TensorRT-LLM,這是一款高度優化的開源資料庫,可透過NVIDIA的AI GPU(例如Hopper)在所有大型語言模型中實現最快的推理性能。NVIDIA與開源社區合作,利用最新的AI核心和SmoothQuant、FlashAttention和fMHA等頂尖技術來優化其GPU。該開源資料庫包括現成執行的SOTA推理優化版本的LLM,例如GPT-3 (175B)、Llama Falcom (180B) 和 Bloom。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_1-g-standard-scale-4_00x-Custom.png

TensorRT-LLM還經過優化,可以在有Infiniband互連的多個NVLINK伺服器之間進行自動並行化。以前必須在多個伺服器/GPU上手動為服務器分配大型語言模型,而使用Tensor-RT LLM則不再是這種情況。

TensorRT-LLM帶來的最大更新之一是一種稱為飛行批處理的新調度程式,它允許工作獨立於其他任務進入和退出GPU。它允許動態處理多個較小的查詢,同時在同一GPU中處理大型計算密集型請求。整個過程使GPU更加高效,並導致H100等GPU的吞吐量大幅提升,準確地說高達2倍。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_2-g-standard-scale-4_00x-Custom.png


TensorRT-LLM還圍繞Hopper的Transformer引擎及其計算FP8功能進行了優化。該資料庫提供自動FP8轉換、用於核心融合的DL編譯器和混合精度優化器,並支援NVIDIA自己的Smoothquaint算法,可在不損失精度的情況下實現8位元量化性能。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_3-g-standard-scale-4_00x-Custom.png

那麼說到性能數據,NVIDIA將A100與H100在8月份的性能以及H100與TensorRT-LLM的性能進行了比較。在GPT-J 6B(推理)中,H100已經提供了4倍增益,但藉助TensorRT-LLM,該公司將性能提高了一倍,從而在該特定測試中實現了8倍增益。在Llama2中我們看到使用TensorRT LLM的增益高達5倍,並且比不使用 TensorRT-LLM的標準H100增益幾乎為2倍。
NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_4-g-standard-scale-4_00x-Custom.png

NVIDIA表示他們正在與所有領先的推理工作負載(例如Meta、Grammarly、Deci、anyscale 等)合作,使用TensorRT-LLM加速他們的LLM。至於可用性,TensorRT-LLM現已提供搶先體驗,預計下個月發布完整版。至於支援,TensorRT-LLM將受到目前正在生產的所有NVIDIA數據中心和AI GPU的支援,例如A100、H100、L4、L40、L40S、HGX、Grace Hopper等。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-9-20 06:36 , Processed in 0.096094 second(s), 34 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表