蘋果最新論文：LLM只是複雜的模式對應，而不是真正的邏輯推理

sxs112.tw · 發表於 2024-10-13 21:46:16

大語言模型真的可以推理嗎？ LLM都是參數對應大師？蘋果研究員質疑LLM推理能力，稱其不堪一擊！蘋果的研究員Mehrdad Farajtabar等人最近發表了一篇論文，對大型語言模型（LLM）的推理能力提出了尖銳的質疑，他認為LLM的推理能力，其實只是複雜的模式對應，不堪一擊！

論文作者研究了包括Llama、Phi、Gemma、Mistral等開源模型，以及GPT-4o和o1系列等閉源模型。需要指出的是在OpenAI發布GSM8K的三年裡，模型的性能有了顯著提升，從GPT-3 （175B）的35%提升到了現在30億參數模型的85%以上，更大的模型甚至超過了95%。但Farajtabar 認為這並不能證明LLM的推理能力真的提高了。

為了測試LLM的數學推理能力的極限，Farajtabar和他的團隊開發了一個名為GSM-Symbolic的新工具，它可以根據GSM8K測試集打造符號模板，從而能夠產生大量實例並設計可控實驗。他們產生了50個獨特的GSM-Symbolic集合，這些集合本質上就像GSM8K範例，但有不同的值和名稱。

GSM8K是Grade School Math 8K的縮寫，是用來評估數學問題解決能力的資料集。這個資料集主要包含小學等級的數學題目（大約8，000題目），通常用於訓練和測試機器學習模型，特別是在自然語言處理領域的模型如何處理和解決數學問題

實驗結果令人大跌眼鏡：

1．目前GSM8K 的準確率並不可靠！不同模型在GSM8K上的表現差異巨大，例如Llama 8B的得分在70%到80%之間，Phi-3的得分在75%到90%之間。對於大多數模型在GSM-Symbolic上的平均性能低於在GSM8K上的平均性能。

2．所謂的LLM推理能力不堪一擊！ LLM對專有名詞和數字的更改非常敏感，這說明它們並沒有真正理解數學概念。就像一個小學生，如果我們只是更改了數學測驗題中的人名，他的分數就會下降10%嗎？顯然不會。

3．隨著問題難度的增加（M1 → Symbolic → P1 → P2）。引入了GSM-Symbolic 的三個新版本來研究模型行為：刪除一個分句（GSM-M1）、增加一個分句（GSM-P1）或增加兩個分句（GSM-P2），模型的性能下降，方差上升，這意味著模型的可靠性越來越差

4．導入GSM-NoOp後，模型性能斷崖式下跌！ GSM-NoOp是在GSM-Symbolic的基礎上，增加了一個看似相關但不影響整體推理的子句。所有模型，包括o1 模型，都表現出了顯著的性能下降。這說明即使是強大的o1模型，也無法真正理解數學問題的邏輯結構

5．即使是OpenAI的o1系列模型，也無法完全避免這些問題。 o1-preview雖然有所改進，但仍然會犯一些低級錯誤，例如無法理解現在和去年的區別，這可能是因為訓練數據中包含了通貨膨脹的模式，模型只是簡單地模仿了這種模式

Farajtabar認為LLM的這些表現，更好地解釋是複雜的模式對應，而不是真正的邏輯推理。即使我們增加數據、參數和計算量，或使用更好的訓練數據，也只是得到了更好的模式對應器，而不是更好的推理器。

Denny Zhou （Google DeepMind的LLM推理團隊負責人）也參與了討論，他指出：

這項工作的一個關鍵發現是：向GSM8k問題添加不相關的上下文會導致LLM無法解決這些問題，正如我們在ICML 2023年的論文'大型語言模型很容易被不相關的上下文分散注意力中所證明的那樣。

Yuandong Tian （Meta AI的研究科學家總監）也表達了他的觀點：

核心問題是：憑藉我們的領域知識，我們可以建立權重，使LLM在特定問題中進行良好的推理；然而梯度下降可能無法學習到這樣的權重；我們仍然依賴梯度下降，因為它為許多領域帶來了魔力——如果它在其他領域變得愚蠢，我們也無能為力。

總括來說這篇論文研究結果沒有在包括Llama、Phi、Gemma和Mistral等開源模型，以及最近的OpenAI GPT-4o和o1系列等領先閉源模型在內的語言模型中，找到任何形式推理的證據。他們的行為可以用複雜的模式對應來更好地解釋——如此脆弱，以至於更改名稱都會使結果改變約10%！我們可以擴展資料、參數和計算量——或為Phi-4、Llama-4、GPT-5 使用更好的訓練資料。但這可能只會產生更好的模式對應器，而不是更好的推理器。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

華碩極速WiFi 7 寫文競走開始！-- 得獎公

Ducky One X 玩家開箱體驗分享活動

UNI FAN TL Wireless LCD 120 ARGB 玩家開

FSP MP7 ARGB 玩家開箱體驗分享活動

[軟體遊戲] 蘋果最新論文：LLM只是複雜的模式對應，而不是真正的邏輯推理