找回密碼註冊
作者: sxs112.tw
查看: 1411
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

體驗極速WiFi 7!MSI Roamii BE Lite Mesh

MSI首款WiFi 7 Mesh系統登場-Roamii BE Lite Mesh System。Roamii ...

LANCOOL 207 玩家開箱體驗分享活動

LANCOOL 207重新構想了傳統的ATX佈局,將強大的兼容性和卓越的冷卻 ...

NovaPeak 360 ARGB 玩家開箱體驗分享活動

NovaPeak 360 ARGB卓越的一體式水冷散熱解決方案,具有迷人的ARGB燈光 ...

極速WiFi 7 寫文競走開始!

RT-BE86U WiFi 7 無線路由器 極速三代目!出到第三代的86U系列受到 ...

打印 上一主題 下一主題

[軟體遊戲] 蘋果最新論文:LLM只是複雜的模式對應,而不是真正的邏輯推理

[複製鏈接]| 回復
跳轉到指定樓層
1#
大語言模型真的可以推理嗎? LLM都是參數對應大師?蘋果研究員質疑LLM推理能力,稱其不堪一擊!蘋果的研究員Mehrdad Farajtabar等人最近發表了一篇論文,對大型語言模型(LLM) 的推理能力提出了尖銳的質疑,他認為LLM的推理能力,其實只是複雜的模式對應,不堪一擊!
66fc-c2dd6a5968b65c16bdc80cd6db07b6f0.jpg

論文作者研究了包括Llama、Phi、Gemma、Mistral等開源模型,以及GPT-4o和o1系列等閉源模型。需要指出的是在OpenAI發布GSM8K的三年裡,模型的性能有了顯著提升,從GPT-3 (175B) 的35%提升到了現在30億參數模型的85%以上,更大的模型甚至超過了95%。但Farajtabar 認為這並不能證明LLM的推理能力真的提高了。
ae9d-0109b9db6da4426493b11ac75359ed72.jpg

為了測試LLM的數學推理能力的極限,Farajtabar和他的團隊開發了一個名為GSM-Symbolic的新工具,它可以根據GSM8K測試集打造符號模板,從而能夠產生大量實例並設計可控實驗。他們產生了50個獨特的GSM-Symbolic集合,這些集合本質上就像GSM8K範例,但有不同的值和名稱。
24b2-2b7fb0942938b6dc194fc5c283f443e7.jpg

GSM8K是Grade School Math 8K的縮寫,是用來評估數學問題解決能力的資料集。這個資料集主要包含小學等級的數學題目(大約8,000題目),通常用於訓練和測試機器學習模型,特別是在自然語言處理領域的模型如何處理和解決數學問題

實驗結果令人大​​跌眼鏡:
1.目前GSM8K 的準確率並不可靠! 不同模型在GSM8K上的表現差異巨大,例如Llama 8B的得分在70%到80%之間,Phi-3的得分在75%到90%之間。對於大多數模型在GSM-Symbolic上的平均性能低於在GSM8K上的平均性能。

2.所謂的LLM推理能力不堪一擊! LLM對專有名詞和數字的更改非常敏感,這說明它們並沒有真正理解數學概念。就像一個小學生,如果我們只是更改了數學測驗題中的人名,他的分數就會下降10%嗎?顯然不會。

3.隨著問題難度的增加(M1 → Symbolic → P1 → P2)。引入了GSM-Symbolic 的三個新版本來研究模型行為:刪除一個分句(GSM-M1)、增加一個分句(GSM-P1)或增加兩個分句(GSM-P2),模型的性能下降,方差上升, 這意味著模型的可靠性越來越差

4.導入GSM-NoOp後,模型性能斷崖式下跌! GSM-NoOp是在GSM-Symbolic的基礎上,增加了一個看似相關但不影響整體推理的子句。所有模型,包括o1 模型,都表現出了顯著的性能下降。這說明即使是強大的o1模型,也無法真正理解數學問題的邏輯結構

5.即使是OpenAI的o1系列模型,也無法完全避免這些問題。 o1-preview雖然有所改進,但仍然會犯一些低級錯誤,例如無法理解現在和去年的區別,這可能是因為訓練數據中包含了通貨膨脹的模式,模型只是簡單地模仿了這種模式

Farajtabar認為LLM的這些表現,更好地解釋是複雜的模式對應,而不是真正的邏輯推理。 即使我們增加數據、參數和計算量,或使用更好的訓練數據,也只是得到了更好的模式對應器,而不是更好的推理器。

Denny Zhou (Google DeepMind的LLM推理團隊負責人) 也參與了討論,他指出:
這項工作的一個關鍵發現是:向GSM8k問題添加不相關的上下文會導致LLM無法解決這些問題,正如我們在ICML 2023年的論文'大型語言模型很容易被不相關的上下文分散注意力 中所證明的那樣。


Yuandong Tian (Meta AI的研究科學家總監) 也表達了他的觀點:
核心問題是:憑藉我們的領域知識,我們可以建立權重,使LLM在特定問題中進行良好的推理;然而梯度下降可能無法學習到這樣的權重;我們仍然依賴梯度下降,因為它為許多領域帶來了魔力——如果它在其他領域變得愚蠢,我們也無能為力。


總括來說這篇論文研究結果沒有在包括Llama、Phi、Gemma和Mistral等開源模型,以及最近的OpenAI GPT-4o和o1系列等領先閉源模型在內的語言模型中,找到任何形式推理的證據。他們的行為可以用複雜的模式對應來更好地解釋——如此脆弱,以至於更改名稱都會使結果改變約10%!我們可以擴展資料、參數和計算量——或為Phi-4、Llama-4、GPT-5 使用更好的訓練資料。但這可能只會產生更好的模式對應器,而不是更好的推理器。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-10-14 19:25 , Processed in 0.076937 second(s), 34 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表