NVIDIA TensorRT-LLM極大地提升了大型語言模型,Hopper GPU上的增益高達8倍
NVIDIA今天宣布推出全新的AI軟體,稱為TensorRT LLM,可提高GPU上的大型語言模型性能。NVIDIA宣布推出TensorRT-LLM,這是一款高度優化的開源資料庫,可透過NVIDIA的AI GPU(例如Hopper)在所有大型語言模型中實現最快的推理性能。NVIDIA與開源社區合作,利用最新的AI核心和SmoothQuant、FlashAttention和fMHA等頂尖技術來優化其GPU。該開源資料庫包括現成執行的SOTA推理優化版本的LLM,例如GPT-3 (175B)、Llama Falcom (180B) 和 Bloom。
TensorRT-LLM還經過優化,可以在有Infiniband互連的多個NVLINK伺服器之間進行自動並行化。以前必須在多個伺服器/GPU上手動為服務器分配大型語言模型,而使用Tensor-RT LLM則不再是這種情況。
TensorRT-LLM帶來的最大更新之一是一種稱為飛行批處理的新調度程式,它允許工作獨立於其他任務進入和退出GPU。它允許動態處理多個較小的查詢,同時在同一GPU中處理大型計算密集型請求。整個過程使GPU更加高效,並導致H100等GPU的吞吐量大幅提升,準確地說高達2倍。
TensorRT-LLM還圍繞Hopper的Transformer引擎及其計算FP8功能進行了優化。該資料庫提供自動FP8轉換、用於核心融合的DL編譯器和混合精度優化器,並支援NVIDIA自己的Smoothquaint算法,可在不損失精度的情況下實現8位元量化性能。
那麼說到性能數據,NVIDIA將A100與H100在8月份的性能以及H100與TensorRT-LLM的性能進行了比較。在GPT-J 6B(推理)中,H100已經提供了4倍增益,但藉助TensorRT-LLM,該公司將性能提高了一倍,從而在該特定測試中實現了8倍增益。在Llama2中我們看到使用TensorRT LLM的增益高達5倍,並且比不使用 TensorRT-LLM的標準H100增益幾乎為2倍。
NVIDIA表示他們正在與所有領先的推理工作負載(例如Meta、Grammarly、Deci、anyscale 等)合作,使用TensorRT-LLM加速他們的LLM。至於可用性,TensorRT-LLM現已提供搶先體驗,預計下個月發布完整版。至於支援,TensorRT-LLM將受到目前正在生產的所有NVIDIA數據中心和AI GPU的支援,例如A100、H100、L4、L40、L40S、HGX、Grace Hopper等。
消息來源
頁:
[1]