熱門資訊> 正文
2025-10-22 18:29
炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
(來源:機器之心Pro)
陸毅,復旦大學自然語言處理實驗室碩士生,在 ACL、EMNLP、COLM、NeurIPS 等頂會發表論文十余篇,LongCat Team 核心成員,研究方向為大模型的複雜推理和長序列建模,指導老師為桂韜老師。
郭林森,碩士畢業於東南大學,在 NAACL、EMNLP、Recsys 等會議發表論文多篇,目前就職於美團,LongCat Team 核心成員,研究方向為大模型評測與數據價值挖掘。
王嘉寧,獲得華東師範大學博士學位,曾前往 UCSD 訪問學習,在 ACL、EMNLP、AAAI、ICLR 等頂會發表論文數十篇,目前就職於美團,LongCat Team 核心成員,研究方向為大模型訓練與複雜推理。
研究背景:從「單步推理」到「長鏈決策」
OpenAI o1、DeepSeek-R1 等大型推理模型(LRMs)的出現,標誌着 AI 推理能力進入了「測試時擴展」的新紀元。通過長鏈推理 Long Chain-of-Thought(CoT),這些模型在數學推理、代碼生成、智能體任務等領域取得了令人矚目的突破。
然而,當前的訓練與評測範式存在一個根本性的侷限:幾乎所有主流 Benchmark(如 MATH500、AIME)都聚焦於孤立的單步問題,問題之間相互獨立,模型只需「回答一個問題,然后結束」。但真實世界的推理場景往往截然不同:
這些場景要求模型具備跨問題的長鏈推理能力 —— 不僅要解決單個問題,還要在多個相互關聯的子問題間維持推理連貫性、合理分配思考資源、進行跨步驟的反思與糾錯。
這引出了一個核心問題:大型推理模型的長鏈推理能力邊界究竟在哪里?
現有評測無法回答這個問題,傳統訓練數據也無法培養這種能力(如圖所示,模型在長程推理場景下性能下降嚴重)。
R1 系列模型在長程推理場景下理論準確率和實際準確率的差異
為填補這一空白,復旦大學與美團 LongCat Team聯合推出 R-HORIZON—— 首個系統性評估與增強 LRMs 長鏈推理能力的方法與基準。
R-HORIZON:揭開推理模型「能力地平線」
核心創新:Query Composition 方法
R-HORIZON 提出了一種簡潔而強大的問題組合(Query Composition)方法,通過建立問題間的依賴關係,將孤立任務轉化為複雜的多步驟推理場景。
以數學任務為例:
1. 提取關鍵信息:從多個獨立問題中提取核心數值、變量等信息
2. 建立依賴關係:將前一個問題的答案嵌入到后一個問題的條件中
3. 形成推理鏈:模型必須按順序正確解決所有問題才能得到最終答案
這種方法具有三大優勢:
基於這一方法,我們構建了長鏈推理的評測基準 R-HORIZON Benchmark,用於系統性評估 LRMs 在多步推理場景下的真實能力;同時,我們還構建了長鏈推理的訓練數據,通過強化學習(RLVR)訓練來提升模型的長鏈推理能力。
R-HORIZON Benchmark:全面的長鏈推理評測基準
基於 Query Composition 方法,我們構建了 R-HORIZON Benchmark,涵蓋 6 大代表性數據集:
核心發現:頂級模型的「推理斷崖」
我們評測了 20+ 個主流 LRMs(包括 o4-mini、Claude-Sonnet-4、DeepSeek-R1 等頂級商業模型以及開源模型),結果揭示了一個令人震驚的現象:即使是最先進的模型,在長鏈推理場景下也會出現性能斷崖式下降。
關鍵發現:
R-HORIZON Benchmark 評測結果 —— 所有模型均出現顯著性能衰退
深度分析:推理模型的三大瓶頸
爲了理解性能斷崖背后的原因,我們進行了深入的機制分析,發現當前 LRMs 存在三個關鍵瓶頸:
1. 有效推理長度受限
隨着相互依賴問題數量的增加,LRMs 難以維持其性能。實際準確率與理論準確率之間的差距顯著擴大,表明模型無法在更長的推理範圍內保持原有性能。
深入分析發現:
R1-Qwen-7B 和 R1-Qwen-32B 在準確率和錯誤位置上的分析
2. 反思機制高度局部化
我們分析了模型的「反思」行為,發現:
MATH500 數據集上的反思行為分析
3. 思考預算分配失衡
最令人意外的發現是:包括 DeepSeek-R1 在內的主流 LRMs 都無法有效地在推理範圍內分配思考預算。
不同組合問題數量下各模型的思考預算分配
R-HORIZON 訓練:重塑推理模型的能力邊界
發現問題只是第一步,我們進一步探索:能否通過使用組合數據進行強化學習訓練來突破這些瓶頸?
RLVR with R-HORIZON:用長鏈數據訓練推理模型
我們使用 R-HORIZON 構建的長鏈推理數據並使用 GRPO 算法進行訓練,訓練策略:
突破性成果:雙重性能提升
實驗結果令人振奮:R-HORIZON 訓練不僅顯著提升長鏈任務表現,連單問題性能也大幅增強。
加粗數字表示該列最佳成績
不同訓練配置下的性能對比。"Origin" 表示單問題場景,"n=X" 表示 X 個組合問題場景,"Multi" 表示多問題場景的平均性能
關鍵發現:
1. 雙重性能提升:使用 n=2 組合問題訓練,不僅大幅提升多步推理性能(AIME24 n=2 +17.4 分),單問題性能也顯著增強(AIME24 單題 +7.5 分)
2. 可擴展複雜度:增加組合複雜度(n=4)增強了模型處理需要更多推理步驟問題的能力,在 MATH500 (n=8) 上達到 50.6%
訓練帶來的質變
R-HORIZON 訓練不僅提升了性能數字,更帶來了推理機制的深層改變:
更高效的推理長度:
訓練顯著改善了模型在組合任務上的性能,展現出更好的泛化到更長推理鏈的能力,同時緩解了「overthinking」現象(生成更短、更高效的回答)。
更合理的預算分配:
模型學會了在多步問題中進行更合理的 token 預算分配,不再「重頭輕尾」。
更長程的反思能力:
R-HORIZON 促進了模型進行更長程反思的頻率增加,直接改善了長鏈推理性能。
結論與展望:開啟長鏈推理新紀元
R-HORIZON 的推出,標誌着大型推理模型研究進入了一個新的階段 —— 從「能解決什麼問題」到「能走多遠」的範式轉變。
技術貢獻
開放生態
R-HORIZON 框架已全面開源,包括:
期待與全球研究者攜手,共同推動下一代推理模型的發展,讓人工智能在現實世界中展現出更卓越的長鏈推理能力。
資源鏈接:
Paper:https://arxiv.org/abs/2510.08189
Project Page:https://reasoning-horizon.github.io
GitHub:https://github.com/meituan-longcat/R-HORIZON
Dataset:https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879