找回密碼註冊
作者: lin.sinchen
查看: 4670
回復: 0

文章標籤:

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

SAMSUNG T7 Shield 移動固態硬碟

[*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

GEX PRO 850W玩家開箱體驗分享活動

卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

體驗極速WiFi 7!MSI Roamii BE Lite Mesh

第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

打印 上一主題 下一主題

[業界新聞] TensorRT-LLM 發布加速 AI 推論效能支援 RTX Win PC 運行新模型

[複製鏈接]| 回復
跳轉到指定樓層
1#


Windows PC 上的人工智慧(AI)標誌著科技史上的關鍵時刻,它將徹底改變玩家、創作者、直播主、上班族、學生乃至普通 PC 用戶的體驗。

AI 為 1 億多台採用 RTX GPU 的 Windows PC 和工作站提高生產力,帶來前所未有的機會。NVIDIA RTX 技術使開發者更輕鬆地創建AI應用,從而改變人們使用電腦的方式。

在微軟 Ignite 大會上發布的全新最佳化、模型和資源,將讓開發者可以更快提供新的終端使用者體驗。

TensorRT-LLM 是一款提升 AI 推論效能的開源軟體,它即將發布的更新版將支持更多大型語言模型,可在 RTX GPU 8GB VRAM 以上的 PC 和筆記型電腦上,使要求嚴苛的 AI 工作負載更容易完成。

Tensor RT-LLM for Windows 即將透過全新封裝介面與 OpenAI 廣受歡迎的聊天 API 相容。這將使數以百計的開發者專案和應用能在 RTX PC 的本地運行,而非雲端運行,因此用戶可以在 PC 上保留私人和專有資料。

客製的生成式 AI 需要時間和精力來維護專案。特別是跨多個環境和平臺進行協作和部署時,該過程可能會異常複雜和耗時。

NVIDIA 資料科學工作台(AI Workbench) 是一個統一、易用的工具包,允許開發者在 PC 或工作站上快速建立、測試和客製預先訓練的生成式 AI 模型和 LLM。它為開發者提供一個單一平臺,用於組織他們的AI專案,並根據特定使用者需求來調整模型。

這使開發者能夠進行無縫協作和部署,快速創建具有成本效益、可擴展的生成式AI模型。歡迎加入搶先體驗名單,成為首批用戶以率先瞭解不斷更新的功能,並接收更新資訊。

為支援AI開發者,NVIDIA與微軟共同發布DirectML增強功能以加速Llama 2,時下最熱門的基礎AI模型之一。除了制定一個全新的效能標準,開發者現在亦有更多跨供應商部署可選擇。


可攜式 AI

NVIDIA 於 10 月發布了用於加速大型語言模型(LLM)推理的函式庫 TensorRT-LLM for Windows。

本月底發布的TensorRT-LLM v0.6.0 更新將帶來高達5倍的推論效能提升,並支援更多熱門的 LLM,包括全新Mistral 7B 和Nemotron-3 8B。這些 LLM 版本將可在所有採用8GB記憶體以上的 GeForce RTX 30 系列和 40 系列 GPU 上運行,從而使最輕便的 Windows PC設備也能具備於本地快速且準確運行 LLM 的功能。
新發布的TensorRT-LLM可在 /NVIDIA/TensorRT-LLM GitHub儲存庫中下載安裝,全新最佳化的模型將提供於ngc.nvidia.com



實現從容對話

世界各地的開發者和愛好者將 OpenAI 的聊天 API 廣泛用於各種應用,包括總結網頁內容、起擬文件草稿和電子郵件、分析並視覺化資料、製作簡報等。
這類以雲端為基礎的AI面臨的一大挑戰在於它們需要使用者上傳輸入資料,因此對於私人或專有資料或處理大型資料集而言並不實用。

為應對這一挑戰,NVIDIA即將啟用 TensorRT-LLM for Windows,藉由全新封裝器提供與 OpenAI 廣受歡迎的 ChatAPI 類似的 API 介面,為開發者帶來類似的工作流程,無論他們設計的模型和應用要在 RTX PC 的本地運行、在雲端運行,只需修改一到兩行代碼,數百個AI驅動的開發者專案和應用現在就能從快速的本地AI中受益。使用者可將資料保存在PC上,不必擔心將資料上傳到雲端。

此外,最重要的一點是這些項目和應用中有很多都是開源的,開發者可以輕鬆利用和擴展它們的功能,從而加速生成式AI在RTX 驅動的Windows PC上的應用。

該封裝器可與所有對 TensorRT-LLM 進行最佳化的 LLM(如:Llama 2、Mistral 和 NV LLM)配合使用,並作為參考專案在 GitHub 上發布,同步也將發布可以在 RTX 上使用 LLM 的其他開發者資源。


模型加速

開發者現可利用尖端的AI模型,並透過跨供應商 API 進行部署。NVIDIA 和微軟一直致力於增強開發者能力,透過 DirectML API 在 RTX 上加速Llama。

在 10 月已宣布,在為這些模型提供最快推論效能的基礎上,此項跨供應商部署的全新選項將使 AI 功能導入 PC 變得前所未有的簡單。

開發者和愛好者可下載最新的 ONNX 執行時間、依照微軟的安裝說明進行操作,並安裝最新 NVIDIA 驅動程式(將於 11 月 21 日發佈),以獲得最新的最佳化體驗。

這些全新的最佳化、模型和資源將加速AI功能和應用在全球1億台 RTX PC 上的開發和部署,同時加入了400多個合作夥伴的行列,這些夥伴皆已推出由 RTX GPU 加速的 AI 驅動的應用和遊戲。

隨著模型易用性的提高,而開發者將更多生成式 AI 功能帶到 RTX 驅動的  Windows PC上,RTX GPU 將成為用戶採用這一強大技術的關鍵。

source: blogs.nvidia.com
更多圖片 小圖 大圖
組圖打開中,請稍候......
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-12-26 03:30 , Processed in 0.128385 second(s), 67 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表