鏈式思維是幻象嗎？從數據分佈視角重新審視大模型推理，馬斯克回覆，Grok破防

2025-08-14 17:11

特斯拉(TSLA) 0
李爾(LEA) 0
Lumber Liquidators Holdings, Inc.(LL) 0

（來源：機器之心）

本文作者來自亞利桑那州立大學數據挖掘與機器學習實驗室 (Data Mining and Machine Learning Lab)，包括博士研究生趙成帥、譚箴、馬平川、李大衞、蔣博涵以及指導老師劉歡教授。Statistical Deep Learning Lab 王硯丞、楊穎振教授。

思維鏈 (CoT) 提示技術常被認為是讓大模型分步思考的關鍵手段，通過在輸入中加入「Let’s think step by step」等提示，模型會生成類似人類的中間推理步驟，顯著提升複雜任務的表現。然而，這些流暢的推理鏈條是否真的反映了模型的推理能力？

亞利桑那州立大學的一項最新研究卻發現，CoT 推理可能並不是真正的推理，而更像是對訓練數據分佈內模式的復現。一旦輸入任務與訓練數據分佈存在差異，這種看似穩固的推理鏈條就會迅速失效，呈現出類似「海市蜃樓」的脆弱性。

論文標題：Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
論文鏈接：https://arxiv.org/pdf/2508.01191
項目開源：https://github.com/ChengshuaiZhao0/DataAlchemy
推特討論：https://x.com/ChengshuaiZhao/status/1953291261999497258
領英推廣：https://www.linkedin.com/feed/update/urn:li:activity:7359056339228090368/

在這篇工作里作者探究了 CoT 的泛化性和 Out-of-Distribution (OOD) 問題，馬斯克看當場測試 Grok 是否會生成 OOD 的內容，直接「強迫」Grok 生成粗俗的髒話鋭評，節目效果拉滿！

推理的「幻象」

研究團隊在論文開頭給出了一個典型的例子：問題是：「美國建國年是閏年還是平年？」，模型的回答是：「美國建於 1776 年，1776 能被 4 整除，又不是世紀年，所以是閏年。因此，美國建國那一年是平年。」這一回答中的推理步驟和知識點看似正確，但結論卻與前提自相矛盾。這表明模型雖然會複述邏輯規則，卻未必真的用這些規則來推導答案。

事實上，已有相關研究表明，CoT 的性能提升往往源於表層語義匹配。一旦問題稍作改寫，或者引入與結論無關的內容，模型的表現便會顯著下降。

數據分佈視角下的 CoT 假設

在這項研究中，作者提出了一個新的解釋框架，即從數據分佈的角度來理解 CoT。他們認為，CoT 的有效性主要來源於模型在訓練分佈內學到的「結構性歸納偏差」(structured inductive bias)。

換句話説，所謂的推理鏈只是對訓練數據中常見模式的復現，而非真正的邏輯推演。當測試任務與訓練數據之間的分佈差異增大時，這種「推理」表現會迅速崩塌。

研究團隊還用理論公式刻畫了這種關係，並引入了一個可計算的分佈差異指標，從而能夠在實驗中估計分佈偏移對推理性能的影響。

可控實驗平臺：數據鍊金術

爲了避免大規模預訓練模型中複雜因素的干擾，團隊選擇從零訓練語言模型，並搭建了一個名為數據鍊金術 (DataAlchemy) 的可控實驗環境。

在該框架中，作者將廣泛意義上的各種 NLP 下游任務抽象成不同「元素」和「變換」的組合。基本「元素」是由 26 個字母原子組成的固定長度序列。作者設計了兩種基本「變換」：一種是 ROT 變換，即將字母表循環位移若干位；另一種是循環位置平移，將序列整體向右移動指定位置。

在此基礎上，他們構造了各種組合變換，通過將不同變換按順序和參數串聯，形成推理鏈。每個任務的正確推理鏈可以被精確生成，這使得模型輸出與標準答案之間的差異能夠被逐步對照評估。

三類泛化實驗的發現

首先在「任務泛化」方面，作者分別考察了「變換泛化」和「元素泛化」兩種情形。「變換泛化」測試了模型在面對新的變換組合，甚至完全陌生的變換類型時的表現；「元素泛化」則涉及模型遇到新的字母組合，或者訓練過程中從未見過的字母。

在分佈內的情況下，模型的準確率接近 100%。然而，只要分佈稍有偏移，例如變換順序被重新組合，準確率便會驟降至 0.01%；當測試中出現全新「變換」時，性能更是幾乎完全喪失。

作者還發現，雖然在少量新數據上進行監督微調 (SFT) 可以迅速恢復性能，但這只是在原有分佈邊界上做了擴展，並未真正提升模型的抽象泛化能力。

在「長度泛化」方面，研究團隊分別考察了「文本長度」變化和「推理步數」變化的影響。實驗結果表明，即使輸入序列長度僅比訓練時多或少一個單位，模型的表現也會顯著下降。它往往會生成與訓練長度一致的推理鏈，並通過添加或刪除詞元來「湊長度」。當推理步數與訓練設置不一致時，模型幾乎完全無法泛化，除非它在訓練中顯式地見過相應步數的樣例。

在「格式泛化」方面，作者通過插入、刪除、替換等方式擾動輸入提示，以模擬現實場景中的多樣的格式。他們發現，模型對格式的變化極為敏感，尤其是當變化發生在「元素」或「變換」部分時，即使邏輯內容不變，僅僅提示形式不同，也可能導致推理徹底失敗。

温度、規模與泛化脆弱性的普遍性

作者進一步測試了不同採樣温度和模型規模下的表現。在合理的溫度範圍內，CoT 的脆弱性模式保持一致。模型規模的變化同樣不影響這一趨勢。這表明，這種對分佈偏移的敏感性並非個別模型的特性，而是一種普遍現象。

研究的現實意義

這項研究對實際應用提出了多項警示。

首先，在醫療、金融和法律等高風險領域，不能盲目依賴 CoT 作為穩健推理的保證。流暢但邏輯有誤的推理鏈可能比直接給出錯誤答案更具誤導性。

其次，現有的評測方法往往依賴與訓練分佈高度一致的驗證集，這會嚴重高估模型的魯棒性。爲了更準確地評估系統性能，必須引入嚴格的分佈外測試。

最后，雖然在少量新數據上進行監督微調可以迅速提升特定任務下的表現，但這種方法只是對原有分佈的局部擴展，不能賦予模型真正的抽象推理能力。

結論

通過數據分佈的視角，這項研究揭示了 CoT 推理的本質：它更像是對訓練中出現過的模式的結構化復現，而不是真正的邏輯推理。一旦任務結構、推理鏈長度或輸入格式超出了訓練分佈的範圍，模型的表現便會迅速崩潰。

在未來的發展中，研究者和工程師需要在充分利用 CoT 在分佈內的優勢的同時，正視其在泛化能力上的瓶頸，並在評測和部署中保持足夠的謹慎。

鏈式思維是幻象嗎？從數據分佈視角重新審視大模型推理，馬斯克回覆，Grok破防

推薦文章

一周財經日曆丨降息信號將定？下周全球央行年會成關鍵；小米、泡泡瑪特、快手領銜港股財報潮

港股周報丨見證歷史！南向資金單日瘋狂買入港股359億港元；騰訊績后股價一度升破600港元

特朗普政府據悉考慮動用芯片法案資金來入股英特爾

美股機會日報丨「恐怖數據」符合預期，交易員下調美聯儲降息預期；巴菲特Q2新建倉股飆升，聯合健康盤前漲超10%

銀諾醫藥-B上市首日暴漲285%，一手賺超1萬港元

投資大佬Tepper減持阿里巴巴、京東等 買入股價暴跌的聯合健康

伯克希爾減持蘋果股份 增持聯合健康集團

8月15日外盤頭條：特朗普政府洽購英特爾股份 貝森特否認推動降息 蘋果重新設計Apple Watch血氧功能

投資大佬Tepper減持阿里巴巴、京東等買入股價暴跌的聯合健康

伯克希爾減持蘋果股份增持聯合健康集團

8月15日外盤頭條：特朗普政府洽購英特爾股份貝森特否認推動降息蘋果重新設計Apple Watch血氧功能