NVIDIA的HGX H200 AI加速器憑藉NVIDIA獨家解碼演算法Medusa ,在Llama 3.1推理方面獲得大幅提升。
[新聞稿]:隨著大型語言模型 (LLM) 的規模和複雜性不斷增長,多GPU運算是提供即時產生AI應用程式所需的低延遲和高吞吐量的必備條件。
效能取決於組合GPU作為一個強大的GPU處理請求的能力,有超快的GPU到GPU通訊以及能夠充分利用多個GPU的高級軟體。透過使用Tensor平行技術與推測解碼等進階演算法將每個模型層的運算拆分到可用的 GPU 上,可以減少tokens產生延遲,從而提供互動式使用者體驗。
對於極低延遲的Llama 3.1服務,雲端服務可以使用完整的NVIDIA HGX H200伺服器,每個伺服器包含八個H200 Tensor Core GPU和四個全對全NVLink Switch 晶片。伺服器內的每個GPU都可以透過NVLink Switch以900GB/s的頻寬與任何其他GPU進行通訊。為了防止多GPU通訊成為互動式用例中的瓶頸,需要高GPU 到GPU結構頻寬。
為了在NVIDIA H200 HGX系統上有效實施最佳化演算法,使用了NVIDIA TensorRT-LLM。 TensorRT-LLM是一個開源TensorRT庫,它使用各種技術(包括Tensor並行性和推測解碼)在最新的 LLM 上提供最先進的推理性能。
即將推出的TensorRT-LLM優化(包括名為Medusa的推測性解碼演算法的改進)可在HGX H200上的Llama 3.1 70B和Llama 3.1 405B上提供出色的低延遲性能,分別為268個tokens/秒/使用者和108個tokens/秒。
採用Transformer的LLM是自回歸的,這意味著需要按順序產生tokens,將每個生成步驟的吞吐量限制為一個tokens。通常在LLM推理期間,產生單一標記的速率取決於模型權重載入到記憶體中的速度。這意味著工作負載可能導致H200 GPU的大量Tensor Core功能未充分利用。
推測性解碼是一種透過使用草稿模型嘗試預測下一個tokens之外的多個後續tokens來增加每個令牌產生步驟的tokens產生吞吐量的技術。然後目標LLM對預測候選進行批次處理,並與下一個標記並行驗證它們,從而更有效地利用可用的平行GPU運算資源。如果原始LLM接受任何候選序列,則在生成步驟中產生多個tokens,從而加速tokens生成。
本文所描述的Medusa是一種推測性解碼演算法,使用原始模型作為草稿模型,避免了使用單獨的草稿模型所帶來的系統複雜性和分佈差異。該技術採用額外的解碼頭(稱為Medusa頭)來預測下一個標記之外的候選標記。每Medusa頭都會產生超出前一個頭的代幣分佈。
透過Medusa,HGX H200每秒可為Llama 3.1 70B產生268個tokens,為Llama 3.1 405B產生108個tokens。 與沒有Medusa的情況相比,Llama 3.1 70B上的速度快了1.5倍以上,Llama 3.1 405B上的速度快了1.9倍以上。儘管不同任務之間的Medusa接受率存在差異,具體取決於微調方式,但其整體性能在廣泛的任務中是通用的。
Llama 3.1 70B和Llama 3.1 405B的Medusa頭均使用NVIDIA TensorRT模型優化器與NVIDIA NeMo框架整合進行訓練。配備NVLink Switch和TensorRT-LLM 的NVIDIA HGX H200已經在流行且要求嚴格的社區模型上提供了出色的即時推理性能。為了持續改善使用者體驗並降低推理成本,我們在技術堆疊的每一層(晶片、系統、軟體庫、演算法等)不斷創新。
隨著我們的平台和LLM生態系統的進步,我們期待分享我們的低延遲推理性能的未來更新。
消息來源 |