AMD推出了首款小語言模式AMD-135M,利用推測性解碼來利用AI功能,最終增強技術流程。
[新聞稿]:在不斷發展的人工智慧領域,GPT-4 和 Llama 等大型語言模型 (LLM) 因其在自然語言處理和生成方面令人印象深刻的能力而受到廣泛關注。
然而小語言模型 (SLM) 正在成為AI模型社群中的重要對應部分,為特定用例提供獨特的優勢。 AMD很高興發布其第一個小語言模型,有推測解碼功能的AMD-135M。 這項工作顯示了對人工智慧開放方法的承諾,這將帶來更具包容性、道德和創新的技術進步,有助於確保更廣泛地分享其好處,並以更協作的方式應對其挑戰。
AMD-135M是Llama系列的第一個小語言模型,利用670B在AMD Instinct™ MI250加速器上從頭開始訓練,並分為兩個模型:AMD-Llama-135M和AMD-Llama-135M-code。
- 預訓練:使用四個MI250,在六天內使用6700億個通用資料token從頭開始訓練AMD-Llama-135M模型。
- 程式碼微調:AMD-Llama-135M代碼版本使用額外的200億個代碼資料進行了微調,在同一硬體上花了四天時間。
該模型的訓練程式碼、資料集和權重都是開源的,以便開發人員可以重現模型並幫助訓練其他SLM和LLM。
大型語言模型通常使用自迴歸方法進行推理。然而這種方法的一個主要限制是每次前向傳遞只能產生單一token,導致記憶體存取效率低並影響整體推理速度。推測解碼的出現解決了這個問題。基本原理涉及使用小型草稿模型產生一組候選標記,然後由較大的目標模型進行驗證。這種方法允許每次前向傳遞產生多個token而不影響效能,從而顯著減少記憶體存取消耗,並使速度提高幾個數量級。
我們使用AMD-Llama-135M-code作為CodeLlama-7b的草稿模型,測試了資料中心的MI250加速器和AI PC的Ryzen™ AI處理器(帶NPU)上有或沒有推測解碼的推理性能。對於我們使用AMD-Llama-135M-code作為草稿模型測試的特定配置,我們看到Instinct MI250加速器、Ryzen AI CPU [2]和 Ryzen AI NPU [2] 與沒有推測的推理相比有加速解碼。 AMD-135M SLM在選定的AMD平台上建立了點到點工作流程,包括訓練和推理。
消息來源 |