大語言模型真的可以推理嗎? LLM都是參數對應大師?蘋果研究員質疑LLM推理能力,稱其不堪一擊!蘋果的研究員Mehrdad Farajtabar等人最近發表了一篇論文,對大型語言模型(LLM) 的推理能力提出了尖銳的質疑,他認為LLM的推理能力,其實只是複雜的模式對應,不堪一擊!
論文作者研究了包括Llama、Phi、Gemma、Mistral等開源模型,以及GPT-4o和o1系列等閉源模型。需要指出的是在OpenAI發布GSM8K的三年裡,模型的性能有了顯著提升,從GPT-3 (175B) 的35%提升到了現在30億參數模型的85%以上,更大的模型甚至超過了95%。但Farajtabar 認為這並不能證明LLM的推理能力真的提高了。
為了測試LLM的數學推理能力的極限,Farajtabar和他的團隊開發了一個名為GSM-Symbolic的新工具,它可以根據GSM8K測試集打造符號模板,從而能夠產生大量實例並設計可控實驗。他們產生了50個獨特的GSM-Symbolic集合,這些集合本質上就像GSM8K範例,但有不同的值和名稱。
GSM8K是Grade School Math 8K的縮寫,是用來評估數學問題解決能力的資料集。這個資料集主要包含小學等級的數學題目(大約8,000題目),通常用於訓練和測試機器學習模型,特別是在自然語言處理領域的模型如何處理和解決數學問題
實驗結果令人大跌眼鏡:
1.目前GSM8K 的準確率並不可靠! 不同模型在GSM8K上的表現差異巨大,例如Llama 8B的得分在70%到80%之間,Phi-3的得分在75%到90%之間。對於大多數模型在GSM-Symbolic上的平均性能低於在GSM8K上的平均性能。
2.所謂的LLM推理能力不堪一擊! LLM對專有名詞和數字的更改非常敏感,這說明它們並沒有真正理解數學概念。就像一個小學生,如果我們只是更改了數學測驗題中的人名,他的分數就會下降10%嗎?顯然不會。
3.隨著問題難度的增加(M1 → Symbolic → P1 → P2)。引入了GSM-Symbolic 的三個新版本來研究模型行為:刪除一個分句(GSM-M1)、增加一個分句(GSM-P1)或增加兩個分句(GSM-P2),模型的性能下降,方差上升, 這意味著模型的可靠性越來越差
4.導入GSM-NoOp後,模型性能斷崖式下跌! GSM-NoOp是在GSM-Symbolic的基礎上,增加了一個看似相關但不影響整體推理的子句。所有模型,包括o1 模型,都表現出了顯著的性能下降。這說明即使是強大的o1模型,也無法真正理解數學問題的邏輯結構
5.即使是OpenAI的o1系列模型,也無法完全避免這些問題。 o1-preview雖然有所改進,但仍然會犯一些低級錯誤,例如無法理解現在和去年的區別,這可能是因為訓練數據中包含了通貨膨脹的模式,模型只是簡單地模仿了這種模式
Farajtabar認為LLM的這些表現,更好地解釋是複雜的模式對應,而不是真正的邏輯推理。 即使我們增加數據、參數和計算量,或使用更好的訓練數據,也只是得到了更好的模式對應器,而不是更好的推理器。
Denny Zhou (Google DeepMind的LLM推理團隊負責人) 也參與了討論,他指出:
這項工作的一個關鍵發現是:向GSM8k問題添加不相關的上下文會導致LLM無法解決這些問題,正如我們在ICML 2023年的論文'大型語言模型很容易被不相關的上下文分散注意力 中所證明的那樣。
Yuandong Tian (Meta AI的研究科學家總監) 也表達了他的觀點:
核心問題是:憑藉我們的領域知識,我們可以建立權重,使LLM在特定問題中進行良好的推理;然而梯度下降可能無法學習到這樣的權重;我們仍然依賴梯度下降,因為它為許多領域帶來了魔力——如果它在其他領域變得愚蠢,我們也無能為力。
總括來說這篇論文研究結果沒有在包括Llama、Phi、Gemma和Mistral等開源模型,以及最近的OpenAI GPT-4o和o1系列等領先閉源模型在內的語言模型中,找到任何形式推理的證據。他們的行為可以用複雜的模式對應來更好地解釋——如此脆弱,以至於更改名稱都會使結果改變約10%!我們可以擴展資料、參數和計算量——或為Phi-4、Llama-4、GPT-5 使用更好的訓練資料。但這可能只會產生更好的模式對應器,而不是更好的推理器。
消息來源
|