AMD Ryzen AI 300 系列處理器釋放消費級 LM Studio 大型語言模型的巔峰效能

lin.sinchen · 發表於 2024-11-8 18:08:44

語言模型自 GPT-2 以來已取得大幅進步，使用者現在可以藉由 LM Studio 等消費級應用程式快速且輕鬆地部署高度複雜的大型語言模型（LLM）。透過與 AMD 合作，這些工具讓每個人都能使用人工智慧（AI），且無需任何編碼或技術知識。

llama.cpp 和 LM Studio概述

LM Studio 基於 llama.cpp 項目，是一個廣受歡迎的框架，用於快速且輕鬆地部署語言模型。LM Studio 沒有相依性（dependencies），僅使用 CPU 即可進行加速，亦支援 GPU 加速功能。LM Studio 使用 AVX2 指令集來加速基於 x86 CPU 的現代 LLM。

效能對比：吞吐量和延遲

AMD Ryzen AI 為這些最先進的工作負載進行加速，在 x86 筆電上運行 LM Studio 等基於 llama.cpp 的應用程式提供領先業界的效能。值得注意的是，LLM 通常對記憶體速度非常敏感。

在我們的對比測試中，Intel 筆電的 RAM 實際上速度較快，達到 8533 MT/s，而 AMD 筆電的 RAM 為 7500 MT/s。儘管如此，AMD Ryzen AI 9 HX 375 處理器的每秒 token 生成速度（tokens per second）比競爭對手快出高達 27%。參考資料顯示 tokens per second (tk/s) 是測量 LLM 輸出token 速度的指標，大約對應於每秒在螢幕上顯示的字數。

AMD Ryzen AI 9 HX 375 處理器在 Meta Llama 3.2 1b Instruct（4-bit 量化）中可實現每秒高達 50.7 個 token 的效能。

對大型語言模型進行基準測試的另一個指標是「輸出首個 token 的時間（time to first token）」，測量從提交提示（prompt）至模型開始生成 token 之間的延遲時間。在較大模型中，基於AMD “Zen 5”架構的 Ryzen AI HX 375 處理器的速度相較競爭對手的同級處理器快出高達 3.5倍。

在 Windows 中使用可變顯示記憶體（VGM）來提高模型吞吐量

AMD Ryzen AI CPU 中的三個加速器各自擁有特定的工作負載專業化和擅長的情境。基於 AMD XDNA 2 架構的 NPU 在執行 Copilot+ 工作負載時為持續的 AI 功能提供卓越的功耗效率，CPU 為工具和框架提供廣泛的覆蓋範圍和相容性，而內顯（iGPU）通常根據需求處理 AI 任務。

LM Studio 提供 llama.cpp 的連接埠（port），可使用與供應商無關（vendor-agnostic）的 Vulkan API 來加速框架。此加速通常取決於硬體功能和 Vulkan API 的驅動程式最佳化的組合。與僅使用 CPU 模式相比，在 LM Studio 中開啟 GPU offload 後 Meta Llama 3.2 1b Instruct 的效能平均提升 31%。Mistral Nemo 2407 12b Instruct 等較大模型在 token 生成階段由於受到頻寬限制，平均效能提升 5.1%。

我們觀察到在 LM Studio 中使用基於 Vulkan 的 llama.cpp 版本並開啟 GPU offload 時，與僅使用 CPU 的模式相比，競爭對手處理器除了其中一個模型外，其餘測試模型的平均效能皆明顯較低。因此，為了保持對比測試的公平性，我們沒有將 Intel Core Ultra 7 258v 在 LM Studio 中使用基於 Vulkan 之 Llama.cpp 的 GPU-offload 效能納入比較。

AMD Ryzen AI 300 系列處理器還包括一項名為可變顯示記憶體（VGM）的功能。通常程式會利用為 iGPU 分配的 512 MB 專用記憶區塊，以及位於系統 RAM 「共享」部分的第二個記憶區塊。VGM 讓使用者將 512 MB 的「專用」分配擴展到高達 75% 的可用系統 RAM 容量。這種連續記憶體的分配顯著提升了對記憶體敏感應用程式的吞吐量。

在開啟 VGM（16GB）後，Meta Llama 3.2 1b Instruct 的效能平均提升 22%，與使用 iGPU 加速並結合 VGM 的 CPU 模式相比，平均速度共提升 60%。

Mistral Nemo 2407 12b Instruct 等更大模型相較僅使用 CPU 的模式，帶來高達 17% 的效能提升。

同步比較：Mistral 7b Instruct 0.3

儘管競爭對手的筆電在 LM Studio 中使用基於 Vulkan 的 Llama.cpp 版本沒有提供加速，我們仍使用 Intel AI Playground 應用程式（基於 IPEX-LLM 和 LangChain）來比較 iGPU 效能，力求在最佳的消費級 LLM 體驗之間進行公平的比較。

我們使用 Intel AI Playground 提供的模型，即 Mistral 7b Instruct v0.3 和 Microsoft Phi 3.1 Mini Instruct。在 LM Studio 中使用可比較的量化後，我們發現 AMD Ryzen AI 9 HX 375 在 Phi 3.1 的速度比競爭對手快 8.7%，在 Mistral 7b Instruct 0.3 的速度則快 13%。

AMD 致力於推進 AI 技術的發展，讓每個人皆能使用 AI。若最新的 AI 進展被設置在高門檻的技術或編碼技能，這目標將無法實現，這就是為何 LM Studio 等應用如此重要。除了能夠快速且輕鬆地在本地部署 LLM 外，這些應用程式讓使用者在 llama.cpp 項目支援該架構的情況下，第一時間體驗最先進的模型。

AMD Ryzen AI 加速器提供卓越效能，開啟 VGM 等功能可為 AI 使用案例提供更好的效能。所有因素結合起來後，為 x86 筆電上的語言模型提供了令人驚豔的使用者體驗。

欲親自體驗 LM Studio，請參閱此連結。

文章標籤：

文章分享：

+ MORE精選文章：

相關帖子

英偉達和AMD正在評估Intel 14A工藝， ...

AMD 發布首份 Zen 6 文檔！有著全新 ...

線上收看 AMD 董事長暨執行長蘇姿丰 ...

+ MORE活動推薦：

Micron Crucial T710 SSD 玩家開箱體驗分享

COUGAR ULTIMUS PRO玩家開箱體驗分享活動

COUGAR AIRFACE 180 玩家開箱體驗分享活動

COUGAR GR 750/GR 850 玩家開箱體驗分享活

[軟體遊戲] AMD Ryzen AI 300 系列處理器釋放消費級 LM Studio 大型語言模型的巔峰效能

瀏覽過的版塊