熱門資訊> 正文
2025-09-02 15:33
現在,LLM 已經可以獲得非常強大的推理能力,而其中關鍵便是測試時擴展(test-time scaling)。
通常而言,延長思維鏈(CoT)就可以延長「思考時間」,從而顯著提升性能,尤其是當使用大規模強化學習和可驗證獎勵 (RLVR) 進行優化時。
然而,對於容易出現細微中間錯誤或需要創造性推理轉變的難題,較長的思維鏈仍然存在根本性的侷限性。在這些情況下,模型往往依賴內部的自我反思,但這又常常無法發現錯誤,也無法在初始方法存在缺陷時進行自我糾正。
因此,模型不僅要能更長時間地思考,還應該要能「更聰明」地思考。為此,可以引入更高級的認知能力,讓模型可以自主地利用合適的工具,從工具環境提供的反饋信號中進行推理、驗證和學習。
近日,微軟研究院的一個研究團隊探索了使用主動式強化學習(agentic reinforcement learning)來實現這一目標,也就是説,模型會與專用工具環境中的工具進行交互,並根據收到的反饋調整其推理方式。
而他們的探索成果便是rStar2-Agent,這是一種強大的主動式強化學習方法。使用該方法,這個微軟團隊訓練了一個 14B 的推理模型rStar2-Agent-14B—— 該模型達到前沿級別的性能,媲美甚至超越了 671B 的 DeepSeek-R1!
這項研究在社交網絡上獲得了廣泛關注。
下面我們就來簡單瞭解一下微軟是如何造出了這個能以小搏大的模型。
論文標題:rStar2-Agent: Agentic Reasoning Technical Report
論文地址:https://arxiv.org/pdf/2508.20722
代碼地址:https://github.com/microsoft/rStar
本研究使用的環境是 Python 編程工具和解釋器。
Python 編程工具可拓寬模型的行動空間,使其能夠探索替代方案並驗證中間步驟,從而在單靠較長的 CoT 不足的情況下補充內部的自我反思。
然而,在該環境中有效地擴展主動式強化學習非常困難。
首先,編程工具和 Python 解釋器的固有複雜性會將環境噪聲引入推理過程。當模型不可避免地生成語法或邏輯上錯誤的代碼時,由此產生的環境反饋(例如,錯誤消息)可能會導致模型浪費寶貴的 token 來糾正錯誤,而不是推進推理。遺憾的是,當前的強化學習方法主要依賴於「僅結果獎勵」,而這隻會加劇這個問題,因為即使中間工具調用失敗的軌跡仍然會獲得正獎勵,只要最終答案正確即可。如此一來,該模型就會將錯誤視為可接受的,並生成宂長且低質量的推理軌跡。
其次,大規模主動式強化學習訓練對基礎設施的要求很高。單個訓練批次可以觸發數萬個併發工具調用,這使得構建可靠且響應迅速的代碼執行環境變得極具挑戰性。
此外,與環境交互的智能體部署會放大標準強化學習系統中部署效率低下的現象,從而顯著減慢整體訓練速度。
微軟提出的 rStar2-Agent 包含三大關鍵創新。
第一,該團隊為大規模主動式強化學習構建了一個高效可靠的基礎架構。
他們構建了一個高吞吐量、獨立的代碼環境,能夠處理 45K 個併發工具調用,平均執行反饋僅需 0.3 秒即可返回。
爲了解決強化學習 rollout 效率低下的問題,他們引入了一個負載均衡的 rollout 調度程序,該調度程序會根據 GPU 上可用的鍵值緩存容量動態分配 rollout 請求,從而最大限度地提高計算利用率。
即使在 GPU 資源有限的情況下,該基礎架構也能實現高效的強化學習訓練。使用 64 塊 MI300X GPU,該團隊僅用一周時間就完成了 rStar2-Agent-14B 的訓練。
第二,爲了在代碼環境中實現有效的主動式強化學習,該團隊提出了基於正確重採樣的組相對策略優化 (GRPO-RoC),它將 GRPO 與基於正確重採樣 (RoC) 的 rollout 策略相結合,以解決稀疏且僅關注結果的獎勵條件下環境引起的噪聲。
具體而言,RoC 首先對較大的 rollout 組進行過採樣,然后下采樣至標準批次大小。正向軌跡經過篩選,僅保留質量最高且工具導致錯誤或格式問題最少的軌跡,而負向軌跡則進行均勻下采樣。
這種簡單而有效的非對稱採樣方法將各種故障模式保留為信息豐富的負向信號,同時強調更高質量的成功案例以進行正向監督。
相比於在獎勵函數中明確懲罰工具使用錯誤的方法,GRPO-RoC 可提高訓練穩定性,並可避免 reward-hacking 的風險。
通過學習更清潔、更高質量的正向軌跡,該模型不僅能提升 Python 編程工具的使用率,還展現出高級認知能力,能夠在真實的代碼環境交互下更高效、更簡潔地進行推理。
第三,該團隊還提出了一套訓練方案,能以最少的計算量將一個 14B 預訓練基礎模型提升到前沿數學推理水平。
不同於先前的研究(在強化學習之前應用推理密集型 SFT ),該團隊從非推理 SFT 階段開始 —— 僅用於灌輸一般的指令遵循、編程工具使用和格式,而不增強推理能力。這可避免潛在的 SFT 過擬合,並保持初始平均響應較短,從而使強化學習能夠更有效地培養推理能力,同時充分利用模型的預訓練能力。
然后,該團隊使用 GRPO-RoC 進行多階段強化學習訓練,逐漸增加任務難度和最大訓練時長。不同於之前的強化學習方法,這些方法需要將 rollout 規模大幅擴展至 16K→48K 甚至更高,該團隊將每個階段的長度限制在較短的範圍內(8K→12K)。這可顯著降低強化學習成本,同時鼓勵更高效的推理策略。
該模型僅需510個強化學習步驟,即可快速實現前沿水平的數學推理,展現出強大的能力和卓越的訓練效率。
最終,使用新方法,他們訓練得到了一個模型並將其命名為 rStar2-Agent-14B。它只有 14B 大小,但卻實現了超越 DeepSeek-R1 和 Kimi k1.5 等領先推理模型的強大數學推理性能。
值得注意的是,在 AIME24 上,它的準確度達到了80.6%,比 o3-mini (medium)、DeepSeek-R1 和 Claude Opus 4.0 (thinking) 分別高出 1.0%、0.8% 和 3.6%,在 AIME25 和 HMMT25 上分別達到了 69.8% 和 52.7%,展現了穩定一致的強大能力。
除了數學之外,儘管這里只使用數學的主動式強化學習進行訓練,它仍然能夠有效地泛化。
它在 GPQA-Diamond 科學推理基準上的表現優於 DeepSeek-V3,在 BFCL v3 的智能體工具使用任務上也表現不錯,並在 IFEval 和 Arena-Hard 等通用基準測試中取得了具有競爭力的結果。
該團隊還報告了未成功的嘗試和分析,並重點介紹了由 rStar2-Agent 主動式強化學習帶來的對更高級認知推理行為的發現,例如驅動更有效推理的環境反饋反思 token。
更多分析和消融研究請見原論文。
本文來自微信公眾號「機器之心」(ID:almosthuman2014),作者:機器之心,編輯:Panda,36氪經授權發佈。