NVIDIA TensorRT-LLM極大地提升了大型語言模型，Hopper GPU上的增益高達8倍

sxs112.tw · 發表於 2023-9-9 15:46:58

NVIDIA今天宣布推出全新的AI軟體，稱為TensorRT LLM，可提高GPU上的大型語言模型性能。

NVIDIA宣布推出TensorRT-LLM，這是一款高度優化的開源資料庫，可透過NVIDIA的AI GPU（例如Hopper）在所有大型語言模型中實現最快的推理性能。NVIDIA與開源社區合作，利用最新的AI核心和SmoothQuant、FlashAttention和fMHA等頂尖技術來優化其GPU。該開源資料庫包括現成執行的SOTA推理優化版本的LLM，例如GPT-3 (175B)、Llama Falcom (180B) 和 Bloom。

NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_1-g-standard-scale-4_00x-Custom.png

TensorRT-LLM還經過優化，可以在有Infiniband互連的多個NVLINK伺服器之間進行自動並行化。以前必須在多個伺服器/GPU上手動為服務器分配大型語言模型，而使用Tensor-RT LLM則不再是這種情況。

TensorRT-LLM帶來的最大更新之一是一種稱為飛行批處理的新調度程式，它允許工作獨立於其他任務進入和退出GPU。它允許動態處理多個較小的查詢，同時在同一GPU中處理大型計算密集型請求。整個過程使GPU更加高效，並導致H100等GPU的吞吐量大幅提升，準確地說高達2倍。

NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_2-g-standard-scale-4_00x-Custom.png

TensorRT-LLM還圍繞Hopper的Transformer引擎及其計算FP8功能進行了優化。該資料庫提供自動FP8轉換、用於核心融合的DL編譯器和混合精度優化器，並支援NVIDIA自己的Smoothquaint算法，可在不損失精度的情況下實現8位元量化性能。

NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_3-g-standard-scale-4_00x-Custom.png

那麼說到性能數據，NVIDIA將A100與H100在8月份的性能以及H100與TensorRT-LLM的性能進行了比較。在GPT-J 6B（推理）中，H100已經提供了4倍增益，但藉助TensorRT-LLM，該公司將性能提高了一倍，從而在該特定測試中實現了8倍增益。在Llama2中我們看到使用TensorRT LLM的增益高達5倍，並且比不使用 TensorRT-LLM的標準H100增益幾乎為2倍。

NVIDIA-TensorRT-LLM-Hopper-AI-GPU-_4-g-standard-scale-4_00x-Custom.png

NVIDIA表示他們正在與所有領先的推理工作負載（例如Meta、Grammarly、Deci、anyscale 等）合作，使用TensorRT-LLM加速他們的LLM。至於可用性，TensorRT-LLM現已提供搶先體驗，預計下個月發布完整版。至於支援，TensorRT-LLM將受到目前正在生產的所有NVIDIA數據中心和AI GPU的支援，例如A100、H100、L4、L40、L40S、HGX、Grace Hopper等。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

極致效能優化三星990 EVO 玩家體驗分享活

FSP VITA GM White 玩家開箱體驗分享活動

FV150 RGB 玩家開箱體驗分享活動

海韻創新技術分享會會後分享--得獎公告

[軟體遊戲] NVIDIA TensorRT-LLM極大地提升了大型語言模型，Hopper GPU上的增益高達8倍