TensorRT-LLM 發布加速 AI 推論效能支援 RTX Win PC 運行新模型
https://news.xfastest.com/wp-content/uploads/2023/11/NVIDIA15.jpgWindows PC 上的人工智慧(AI)標誌著科技史上的關鍵時刻,它將徹底改變玩家、創作者、直播主、上班族、學生乃至普通 PC 用戶的體驗。
AI 為 1 億多台採用 RTX GPU 的 Windows PC 和工作站提高生產力,帶來前所未有的機會。NVIDIA RTX 技術使開發者更輕鬆地創建AI應用,從而改變人們使用電腦的方式。
在微軟 Ignite 大會上發布的全新最佳化、模型和資源,將讓開發者可以更快提供新的終端使用者體驗。
TensorRT-LLM 是一款提升 AI 推論效能的開源軟體,它即將發布的更新版將支持更多大型語言模型,可在 RTX GPU 8GB VRAM 以上的 PC 和筆記型電腦上,使要求嚴苛的 AI 工作負載更容易完成。
Tensor RT-LLM for Windows 即將透過全新封裝介面與 OpenAI 廣受歡迎的聊天 API 相容。這將使數以百計的開發者專案和應用能在 RTX PC 的本地運行,而非雲端運行,因此用戶可以在 PC 上保留私人和專有資料。
客製的生成式 AI 需要時間和精力來維護專案。特別是跨多個環境和平臺進行協作和部署時,該過程可能會異常複雜和耗時。
NVIDIA 資料科學工作台(AI Workbench) 是一個統一、易用的工具包,允許開發者在 PC 或工作站上快速建立、測試和客製預先訓練的生成式 AI 模型和 LLM。它為開發者提供一個單一平臺,用於組織他們的AI專案,並根據特定使用者需求來調整模型。
這使開發者能夠進行無縫協作和部署,快速創建具有成本效益、可擴展的生成式AI模型。歡迎加入搶先體驗名單,成為首批用戶以率先瞭解不斷更新的功能,並接收更新資訊。
為支援AI開發者,NVIDIA與微軟共同發布DirectML增強功能以加速Llama 2,時下最熱門的基礎AI模型之一。除了制定一個全新的效能標準,開發者現在亦有更多跨供應商部署可選擇。
可攜式 AI
NVIDIA 於 10 月發布了用於加速大型語言模型(LLM)推理的函式庫 TensorRT-LLM for Windows。
本月底發布的TensorRT-LLM v0.6.0 更新將帶來高達5倍的推論效能提升,並支援更多熱門的 LLM,包括全新Mistral 7B 和Nemotron-3 8B。這些 LLM 版本將可在所有採用8GB記憶體以上的 GeForce RTX 30 系列和 40 系列 GPU 上運行,從而使最輕便的 Windows PC設備也能具備於本地快速且準確運行 LLM 的功能。
新發布的TensorRT-LLM可在 /NVIDIA/TensorRT-LLM GitHub儲存庫中下載安裝,全新最佳化的模型將提供於ngc.nvidia.com。
https://news.xfastest.com/wp-content/uploads/2023/11/TensorRT-LLM-Windows-Inference-P.jpg
實現從容對話
世界各地的開發者和愛好者將 OpenAI 的聊天 API 廣泛用於各種應用,包括總結網頁內容、起擬文件草稿和電子郵件、分析並視覺化資料、製作簡報等。
這類以雲端為基礎的AI面臨的一大挑戰在於它們需要使用者上傳輸入資料,因此對於私人或專有資料或處理大型資料集而言並不實用。
為應對這一挑戰,NVIDIA即將啟用 TensorRT-LLM for Windows,藉由全新封裝器提供與 OpenAI 廣受歡迎的 ChatAPI 類似的 API 介面,為開發者帶來類似的工作流程,無論他們設計的模型和應用要在 RTX PC 的本地運行、在雲端運行,只需修改一到兩行代碼,數百個AI驅動的開發者專案和應用現在就能從快速的本地AI中受益。使用者可將資料保存在PC上,不必擔心將資料上傳到雲端。
此外,最重要的一點是這些項目和應用中有很多都是開源的,開發者可以輕鬆利用和擴展它們的功能,從而加速生成式AI在RTX 驅動的Windows PC上的應用。
該封裝器可與所有對 TensorRT-LLM 進行最佳化的 LLM(如:Llama 2、Mistral 和 NV LLM)配合使用,並作為參考專案在 GitHub 上發布,同步也將發布可以在 RTX 上使用 LLM 的其他開發者資源。
模型加速
開發者現可利用尖端的AI模型,並透過跨供應商 API 進行部署。NVIDIA 和微軟一直致力於增強開發者能力,透過 DirectML API 在 RTX 上加速Llama。
在 10 月已宣布,在為這些模型提供最快推論效能的基礎上,此項跨供應商部署的全新選項將使 AI 功能導入 PC 變得前所未有的簡單。
開發者和愛好者可下載最新的 ONNX 執行時間、依照微軟的安裝說明進行操作,並安裝最新 NVIDIA 驅動程式(將於 11 月 21 日發佈),以獲得最新的最佳化體驗。
這些全新的最佳化、模型和資源將加速AI功能和應用在全球1億台 RTX PC 上的開發和部署,同時加入了400多個合作夥伴的行列,這些夥伴皆已推出由 RTX GPU 加速的 AI 驅動的應用和遊戲。
隨著模型易用性的提高,而開發者將更多生成式 AI 功能帶到 RTX 驅動的Windows PC上,RTX GPU 將成為用戶採用這一強大技術的關鍵。
source: blogs.nvidia.com
頁:
[1]