熱門資訊> 正文
2025-08-14 17:11
(來源:機器之心)
本文作者來自亞利桑那州立大學數據挖掘與機器學習實驗室 (Data Mining and Machine Learning Lab),包括博士研究生趙成帥、譚箴、馬平川、李大衞、蔣博涵以及指導老師劉歡教授。Statistical Deep Learning Lab 王硯丞、楊穎振教授。
思維鏈 (CoT) 提示技術常被認為是讓大模型分步思考的關鍵手段,通過在輸入中加入「Let’s think step by step」等提示,模型會生成類似人類的中間推理步驟,顯著提升複雜任務的表現。然而,這些流暢的推理鏈條是否真的反映了模型的推理能力?
亞利桑那州立大學的一項最新研究卻發現,CoT 推理可能並不是真正的推理,而更像是對訓練數據分佈內模式的復現。一旦輸入任務與訓練數據分佈存在差異,這種看似穩固的推理鏈條就會迅速失效,呈現出類似「海市蜃樓」的脆弱性。
論文標題:Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
論文鏈接:https://arxiv.org/pdf/2508.01191
項目開源:https://github.com/ChengshuaiZhao0/DataAlchemy
推特討論:https://x.com/ChengshuaiZhao/status/1953291261999497258
領英推廣:https://www.linkedin.com/feed/update/urn:li:activity:7359056339228090368/
在這篇工作里作者探究了 CoT 的泛化性和 Out-of-Distribution (OOD) 問題,馬斯克看當場測試 Grok 是否會生成 OOD 的內容,直接「強迫」Grok 生成粗俗的髒話鋭評,節目效果拉滿!
推理的「幻象」
研究團隊在論文開頭給出了一個典型的例子:問題是:「美國建國年是閏年還是平年?」,模型的回答是:「美國建於 1776 年,1776 能被 4 整除,又不是世紀年,所以是閏年。因此,美國建國那一年是平年。」這一回答中的推理步驟和知識點看似正確,但結論卻與前提自相矛盾。這表明模型雖然會複述邏輯規則,卻未必真的用這些規則來推導答案。
事實上,已有相關研究表明,CoT 的性能提升往往源於表層語義匹配。一旦問題稍作改寫,或者引入與結論無關的內容,模型的表現便會顯著下降。
數據分佈視角下的 CoT 假設
在這項研究中,作者提出了一個新的解釋框架,即從數據分佈的角度來理解 CoT。他們認為,CoT 的有效性主要來源於模型在訓練分佈內學到的「結構性歸納偏差」(structured inductive bias)。
換句話説,所謂的推理鏈只是對訓練數據中常見模式的復現,而非真正的邏輯推演。當測試任務與訓練數據之間的分佈差異增大時,這種「推理」表現會迅速崩塌。
研究團隊還用理論公式刻畫了這種關係,並引入了一個可計算的分佈差異指標,從而能夠在實驗中估計分佈偏移對推理性能的影響。
可控實驗平臺:數據鍊金術
爲了避免大規模預訓練模型中複雜因素的干擾,團隊選擇從零訓練語言模型,並搭建了一個名為數據鍊金術 (DataAlchemy) 的可控實驗環境。
在該框架中,作者將廣泛意義上的各種 NLP 下游任務抽象成不同「元素」和「變換」的組合。基本「元素」是由 26 個字母原子組成的固定長度序列。作者設計了兩種基本「變換」:一種是 ROT 變換,即將字母表循環位移若干位;另一種是循環位置平移,將序列整體向右移動指定位置。
在此基礎上,他們構造了各種組合變換,通過將不同變換按順序和參數串聯,形成推理鏈。每個任務的正確推理鏈可以被精確生成,這使得模型輸出與標準答案之間的差異能夠被逐步對照評估。
三類泛化實驗的發現
首先在「任務泛化」方面,作者分別考察了「變換泛化」和「元素泛化」兩種情形。「變換泛化」測試了模型在面對新的變換組合,甚至完全陌生的變換類型時的表現;「元素泛化」則涉及模型遇到新的字母組合,或者訓練過程中從未見過的字母。
在分佈內的情況下,模型的準確率接近 100%。然而,只要分佈稍有偏移,例如變換順序被重新組合,準確率便會驟降至 0.01%;當測試中出現全新「變換」時,性能更是幾乎完全喪失。
作者還發現,雖然在少量新數據上進行監督微調 (SFT) 可以迅速恢復性能,但這只是在原有分佈邊界上做了擴展,並未真正提升模型的抽象泛化能力。
在「長度泛化」方面,研究團隊分別考察了「文本長度」變化和「推理步數」變化的影響。實驗結果表明,即使輸入序列長度僅比訓練時多或少一個單位,模型的表現也會顯著下降。它往往會生成與訓練長度一致的推理鏈,並通過添加或刪除詞元來「湊長度」。當推理步數與訓練設置不一致時,模型幾乎完全無法泛化,除非它在訓練中顯式地見過相應步數的樣例。
在「格式泛化」方面,作者通過插入、刪除、替換等方式擾動輸入提示,以模擬現實場景中的多樣的格式。他們發現,模型對格式的變化極為敏感,尤其是當變化發生在「元素」或「變換」部分時,即使邏輯內容不變,僅僅提示形式不同,也可能導致推理徹底失敗。
温度、規模與泛化脆弱性的普遍性
作者進一步測試了不同採樣温度和模型規模下的表現。在合理的溫度範圍內,CoT 的脆弱性模式保持一致。模型規模的變化同樣不影響這一趨勢。這表明,這種對分佈偏移的敏感性並非個別模型的特性,而是一種普遍現象。
研究的現實意義
這項研究對實際應用提出了多項警示。
首先,在醫療、金融和法律等高風險領域,不能盲目依賴 CoT 作為穩健推理的保證。流暢但邏輯有誤的推理鏈可能比直接給出錯誤答案更具誤導性。
其次,現有的評測方法往往依賴與訓練分佈高度一致的驗證集,這會嚴重高估模型的魯棒性。爲了更準確地評估系統性能,必須引入嚴格的分佈外測試。
最后,雖然在少量新數據上進行監督微調可以迅速提升特定任務下的表現,但這種方法只是對原有分佈的局部擴展,不能賦予模型真正的抽象推理能力。
結論
通過數據分佈的視角,這項研究揭示了 CoT 推理的本質:它更像是對訓練中出現過的模式的結構化復現,而不是真正的邏輯推理。一旦任務結構、推理鏈長度或輸入格式超出了訓練分佈的範圍,模型的表現便會迅速崩潰。
在未來的發展中,研究者和工程師需要在充分利用 CoT 在分佈內的優勢的同時,正視其在泛化能力上的瓶頸,並在評測和部署中保持足夠的謹慎。