找回密碼註冊
作者: sxs112.tw
查看: 3552
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    SAMSUNG T7 Shield 移動固態硬碟

    [*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

    GEX PRO 850W玩家開箱體驗分享活動

    卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

    體驗極速WiFi 7!MSI Roamii BE Lite Mesh

    第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

    極致效能 為遊戲而生 990 PRO SSD 玩家體驗

    [*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

    打印 上一主題 下一主題

    [軟體遊戲] 蘋果最新論文:LLM只是複雜的模式對應,而不是真正的邏輯推理

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    sxs112.tw 發表於 2024-10-13 21:46:16 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
    大語言模型真的可以推理嗎? LLM都是參數對應大師?蘋果研究員質疑LLM推理能力,稱其不堪一擊!蘋果的研究員Mehrdad Farajtabar等人最近發表了一篇論文,對大型語言模型(LLM) 的推理能力提出了尖銳的質疑,他認為LLM的推理能力,其實只是複雜的模式對應,不堪一擊!
    66fc-c2dd6a5968b65c16bdc80cd6db07b6f0.jpg

    論文作者研究了包括Llama、Phi、Gemma、Mistral等開源模型,以及GPT-4o和o1系列等閉源模型。需要指出的是在OpenAI發布GSM8K的三年裡,模型的性能有了顯著提升,從GPT-3 (175B) 的35%提升到了現在30億參數模型的85%以上,更大的模型甚至超過了95%。但Farajtabar 認為這並不能證明LLM的推理能力真的提高了。
    ae9d-0109b9db6da4426493b11ac75359ed72.jpg

    為了測試LLM的數學推理能力的極限,Farajtabar和他的團隊開發了一個名為GSM-Symbolic的新工具,它可以根據GSM8K測試集打造符號模板,從而能夠產生大量實例並設計可控實驗。他們產生了50個獨特的GSM-Symbolic集合,這些集合本質上就像GSM8K範例,但有不同的值和名稱。
    24b2-2b7fb0942938b6dc194fc5c283f443e7.jpg

    GSM8K是Grade School Math 8K的縮寫,是用來評估數學問題解決能力的資料集。這個資料集主要包含小學等級的數學題目(大約8,000題目),通常用於訓練和測試機器學習模型,特別是在自然語言處理領域的模型如何處理和解決數學問題

    實驗結果令人大​​跌眼鏡:
    1.目前GSM8K 的準確率並不可靠! 不同模型在GSM8K上的表現差異巨大,例如Llama 8B的得分在70%到80%之間,Phi-3的得分在75%到90%之間。對於大多數模型在GSM-Symbolic上的平均性能低於在GSM8K上的平均性能。

    2.所謂的LLM推理能力不堪一擊! LLM對專有名詞和數字的更改非常敏感,這說明它們並沒有真正理解數學概念。就像一個小學生,如果我們只是更改了數學測驗題中的人名,他的分數就會下降10%嗎?顯然不會。

    3.隨著問題難度的增加(M1 → Symbolic → P1 → P2)。引入了GSM-Symbolic 的三個新版本來研究模型行為:刪除一個分句(GSM-M1)、增加一個分句(GSM-P1)或增加兩個分句(GSM-P2),模型的性能下降,方差上升, 這意味著模型的可靠性越來越差

    4.導入GSM-NoOp後,模型性能斷崖式下跌! GSM-NoOp是在GSM-Symbolic的基礎上,增加了一個看似相關但不影響整體推理的子句。所有模型,包括o1 模型,都表現出了顯著的性能下降。這說明即使是強大的o1模型,也無法真正理解數學問題的邏輯結構

    5.即使是OpenAI的o1系列模型,也無法完全避免這些問題。 o1-preview雖然有所改進,但仍然會犯一些低級錯誤,例如無法理解現在和去年的區別,這可能是因為訓練數據中包含了通貨膨脹的模式,模型只是簡單地模仿了這種模式

    Farajtabar認為LLM的這些表現,更好地解釋是複雜的模式對應,而不是真正的邏輯推理。 即使我們增加數據、參數和計算量,或使用更好的訓練數據,也只是得到了更好的模式對應器,而不是更好的推理器。

    Denny Zhou (Google DeepMind的LLM推理團隊負責人) 也參與了討論,他指出:
    這項工作的一個關鍵發現是:向GSM8k問題添加不相關的上下文會導致LLM無法解決這些問題,正如我們在ICML 2023年的論文'大型語言模型很容易被不相關的上下文分散注意力 中所證明的那樣。


    Yuandong Tian (Meta AI的研究科學家總監) 也表達了他的觀點:
    核心問題是:憑藉我們的領域知識,我們可以建立權重,使LLM在特定問題中進行良好的推理;然而梯度下降可能無法學習到這樣的權重;我們仍然依賴梯度下降,因為它為許多領域帶來了魔力——如果它在其他領域變得愚蠢,我們也無能為力。


    總括來說這篇論文研究結果沒有在包括Llama、Phi、Gemma和Mistral等開源模型,以及最近的OpenAI GPT-4o和o1系列等領先閉源模型在內的語言模型中,找到任何形式推理的證據。他們的行為可以用複雜的模式對應來更好地解釋——如此脆弱,以至於更改名稱都會使結果改變約10%!我們可以擴展資料、參數和計算量——或為Phi-4、Llama-4、GPT-5 使用更好的訓練資料。但這可能只會產生更好的模式對應器,而不是更好的推理器。

    消息來源
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2024-12-22 14:24 , Processed in 0.080588 second(s), 33 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表