熱門資訊> 正文
2025-10-05 13:41
時令 發自 凹非寺
量子位 | 公眾號 QbitAI
大模型老走重複步驟,導致思維鏈越來越長怎麼辦?
Meta、Mila-Quebec AI Institute、蒙特利爾大學和普林斯頓大學聯合提出元認知複用(Metacognitive Reuse) 機制。
簡單來説,就是讓模型自己回顧、總結解題思路,將常用的推理套路提煉成更為簡潔的「行為」,並將其存儲於 「行為手冊(Behavior Handbook)」 中。
當再遇到類似問題時,模型便可直接從手冊中調用相應的行為,無需重新推導。
實驗結果顯示,該機制通過行為條件推理、行為引導自我改進、行為條件監督微調三種應用場景,在MATH、AIME等數學基準測試中實現了顯著優化,在保持準確率不變的前提下,最多可減少46%的推理token使用量。
下面具體來看。
將重複出現的片段化繁為簡
如今,大型語言模型在解決數學、編程等複雜任務時,廣泛採用思維鏈進行推理,所以每次遇到新問題時,都需要重複推導通用子步驟。
這不僅會導致token用量膨脹、推理延迟增加,還會佔用上下文窗口空間,降低模型探索新路徑的能力。
與此同時,現有LLM的記憶系統(如RAG)僅存儲 「是什麼」 的陳述性知識,缺乏 「如何思考」 的程序性知識複用機制,無法解決重複推理的低效問題。
針對上述問題,研究團隊提出了元認知複用(Metacognitive Reuse) 機制。
讓模型面對問題時,先嚐試解決它,隨后回顧整個推理過程,從中識別出可複用的推理步驟,最終將其轉化為一組標準化「行為」——帶有規範名稱的簡短可執行指令。
這些「行為」會被收錄進一本可檢索的「行為手冊」,既能在測試階段通過上下文提示直接調用,也可通過監督微調內化為模型的固有能力。
首先,研究人員描繪了「行為」構建的整個流程,該框架讓模型在推理過程中扮演3種不同的角色。
元認知策略器(LLM A):負責從自身的推理軌跡中提取行為;
教師(LLM B):負責生成監督微調(SFT)訓練的數據;
學生(LLM C):其推理過程可通過行為加以輔助,包括行為條件推理或行為條件SFT。
爲了提取「行為」,元認知策略器首先會針對給定問題生成一個解決方案,包含推理軌跡+最終答案。
然后,將該問題–解答對再次輸入元認知策略器,用以生成反思,主要是評估推理是否邏輯嚴密、答案是否正確,以及是否能提煉出新的可複用行為以簡化未來的解題過程。
最后,通過另一次查詢,元認知策略器將問題、解答和反思轉化為一組「行為條目(包含名稱和指令)」,並將添加到「行為手冊」中。
用更少的token實現更高的準確率
研究團隊在三種不同場景下測試了該模型的推理性能。
行為條件推理(BCI)
在首個場景中,BCI被用於MATH和AIME–24/25兩個數據集,DeepSeek-R1-Distill-Llama-70B (R1-Llama-70B)和Qwen3-32B被用作候選學生模型。R1-Llama-70B被用作元認知策略生成器。
由上圖可以看出,BCI可以在使用更少token的情況下,就能達到與基線相當或更優的性能。
此外,隨着token的增加,該方法性能仍在提升,表明其不會對模型原有能力產生不良影響。
行為引導的自我改進
在此實驗中,R1-Llama-70B同時擔任元認知策略器和學生兩個角色,具體做法是直接讓模型對自身的推理軌跡進行批判並修正,以實現自我改進。
這個方法就像讓大模型自己「改作業」。給模型一個問題Q,它先寫出一條初步推理軌跡R1。然后,把問題Q和R1 一起交回給模型,讓它檢查並改進,生成新的推理軌跡R2,以修正錯誤或補充遺漏的步驟。
從下圖可以看出,即使不更新參數,模型也能借助從過往解題過程中提取的行為模式,優化后續推理效果。相比朴素的「批判-修正」基線方法,該策略可將準確率最多提升10%。
行為條件監督微調(BC-SFT)
BC-SFT旨在將高質量的行為直接融入模型參數中,其中R1-Llama-70B同時擔任元認知策略器和教師模型,Qwen2.5-14B、Qwen2.5-32B-Instruct、Qwen3-14B和Llama-3.1-8B被用作需要微調的學生模型。
與常規SFT相比,新方法可以更有效地將不具備推理能力的模型轉化為具備推理能力的模型。
值得一提的是,BC-SFT不僅在token上使用更高效,而且幾乎在所有情況下,其準確率都高於兩個基線模型。
參考鏈接:
[1]https://x.com/connordavis_ai/status/1971937767975498160
[2]https://arxiv.org/abs/2509.13237
責任編輯:韋子蓉