NVIDIA宣布TensorRT-LLM即將登陸Windows,將為運行RTX GPU的PC帶來巨大的 AI 提升。
早在9月份NVIDIA就發布了適用於資料中心的TensoRT-LLM模型,該模型比Hopper H100和Ampere A100等業界頂級AI GPU效能提升了8倍。充分利用NVIDIA GeForce RTX和RTX Pro GPU上的Tensor核心加速功能,最新型號將在 LLM推理工作負載中提供高達4倍的效能提升。
TensorRT-LLM帶來的最大更新之一是一種稱為飛行批次的新調度,它允許工作獨立於其他任務進入和退出GPU。它允許動態處理多個較小的查詢,同時在同一 GPU中處理大型運算密集型請求。TensorRT-LLM利用最佳化的開源模型,可以在增加批次大小時實現更高的加速。從今天開始這些優化的開源模型已向公眾開放並可在developer.nvidia.com下載。
TensorRT-LLM模型增加的AI加速將有助於推動各種日常生產力任務,例如參與聊天、總結文件和網頁內容、起草電子郵件和部落格,還可以用於分析數據並使用以下內容生成大量內容:可供模型使用。
那麼TensorRT-LLM將如何幫助運行Windows的消費者PC?在 NVIDIA展示的展示中展示了LLaMa-2等開源預訓練LLM模型與TensorRT-LLM之間的比較。當查詢傳遞給LLaMa-2時,它將從維基百科等大型通用數據集收集訊息,因此它們在訓練後沒有最新訊息,也沒有特定領域的數據集。受過訓練他們也肯定不會知道儲存在您的個人化設備或系統上的任何資料集。因此您將無法獲得您正在尋找的特定數據。
有兩種方法可以解決這個問題,一種是微調,其中LLM圍繞著特定資料集進行最佳化,但這需要大量時間,具體取決於資料集的大小。另一種方法是RAG(檢索增強生成),它使用本地化庫,該資料庫可以填充您希望LLM經歷的資料集,然後利用該LLM的語言理解功能為您提供僅來自該資料集的資訊。
在範例中提出了一個與Alan Wake 2中的NVIDIA技術整合相關的問題,標準LLaMa 2模型無法找到正確的結果,但另一個有TensorRT-LLM的模型則從30篇 GeForce News文章中取得資料。本機資料庫可以毫無問題地提供所需的資訊。因此TensorRT-LLM提供了相關答案,並且比LLaMa-2模型更快。此外NVIDIA還確認您可以使用TenosrRT-LLM來加速幾乎任何型號。這只是NVIDIA TensorRT-LLM可以利用AI在Windows中提供更快、更有效率的PC體驗的眾多範例之一,因此請繼續關注未來的更多公告。
消息來源 |