找回密碼註冊
作者: sxs112.tw
查看: 954
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

極速WiFi 7 寫文競走開始!

RT-BE86U WiFi 7 無線路由器 極速三代目!出到第三代的86U系列受到 ...

EDEG 850W 玩家開箱體驗分享活動

EDEG 850W 雙艙首選,一體雙能 EDGE 系列電源,革命性的L型設計,內 ...

SAMA幻境界 玩家開箱體驗分享活動

[*]270度全景透側無打孔玻璃配置 , 完全符合您視覺的美感 [*]內建 ...

極致效能優化 三星990 EVO 玩家體驗分享活

[*]進化日常效能 極致效能優化、電源效率提升、廣泛的通用 ...

打印 上一主題 下一主題

[軟體遊戲] (PR)AMD-135是該公司的第一個小型語言模型,旨在透過推測解碼實現技術進步

[複製鏈接]| 回復
跳轉到指定樓層
1#
AMD推出了首款小語言模式AMD-135M,利用推測性解碼來利用AI功能,最終增強技術流程。

[新聞稿]:在不斷發展的人工智慧領域,GPT-4 和 Llama 等大型語言模型 (LLM) 因其在自然語言處理和生成方面令人印象深刻的能力而受到廣泛關注。
AMD-135M.jpg

然而小語言模型 (SLM) 正在成為AI模型社群中的重要對應部分,為特定用例提供獨特的優勢。 AMD很高興發布其第一個小語言模型,有推測解碼功能的AMD-135M。 這項工作顯示了對人工智慧開放方法的承諾,這將帶來更具包容性、道德和創新的技術進步,有助於確保更廣泛地分享其好處,並以更協作的方式應對其挑戰。
2889251-modal-performance.jpg

AMD-135M是Llama系列的第一個小語言模型,利用670B在AMD Instinct™ MI250加速器上從頭開始訓練,並分為兩個模型:AMD-Llama-135M和AMD-Llama-135M-code。
  • 預訓練:使用四個MI250,在六天內使用6700億個通用資料token從頭開始訓練AMD-Llama-135M模型。
  • 程式碼微調:AMD-Llama-135M代碼版本使用額外的200億個代碼資料進行了微調,在同一硬體上花了四天時間。

該模型的訓練程式碼、資料集和權重都是開源的,以便開發人員可以重現模型並幫助訓練其他SLM和LLM。

大型語言模型通常使用自迴歸方法進行推理。然而這種方法的一個主要限制是每次前向傳遞只能產生單一token,導致記憶體存取效率低並影響整體推理速度。推測解碼的出現解決了這個問題。基本原理涉及使用小型草稿模型產生一組候選標記,然後由較大的目標模型進行驗證。這種方法允許每次前向傳遞產生多個token而不影響效能,從而顯著減少記憶體存取消耗,並使速度提高幾個數量級。

我們使用AMD-Llama-135M-code作為CodeLlama-7b的草稿模型,測試了資料中心的MI250加速器和AI PC的Ryzen™ AI處理器(帶NPU)上有或沒有推測解碼的推理性能。對於我們使用AMD-Llama-135M-code作為草稿模型測試的特定配置,我們看到Instinct MI250加速器、Ryzen AI CPU [2]和 Ryzen AI NPU [2] 與沒有推測的推理相比有加速解碼。  AMD-135M SLM在選定的AMD平台上建立了點到點工作流程,包括訓練和推理。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-10-2 18:28 , Processed in 0.104714 second(s), 34 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表