熱門資訊> 正文
2025-10-23 15:44
(來源:機器之心)
本文(共同)第一作者為王少博(上交 AI)、焦政博(上財)。(共同)通訊作者為魏虎(阿里巴巴)和張林峰(上交 AI)。本文其他作者來自阿里巴巴、武大、浙大等。
最近一篇來自阿里巴巴和上交等單位的 Agent 自進化工作得到了推特大佬們的關注。首先是 Rohan Paul 的兩次轉發:
網友對此也高度評價:
讓我們看看這篇工作到底是怎麼做的?
引言:從 「數據飢渴」 到 「自給自足」
當前大語言模型在數學推理上的突破,高度依賴海量人工標註數據。以 MetaMath 和 WizardMath 為代表的靜態增強方法,雖能通過提示工程合成訓練樣本,但其生成的問題質量不穩定,且無法動態適配模型能力演進,導致訓練信號效率低下。
為突破這一瓶頸,阿里巴巴與上海交通大學 EPIC Lab 聯合提出 Socratic-Zero,一個完全無外部數據依賴的自主推理訓練框架。該方法僅從 100 個種子問題出發,通過三個智能體的協同進化,自動生成高質量、難度自適應的課程,並持續提升模型推理能力。
論文鏈接:https://arxiv.org/pdf/2509.24726
GitHub 地址:https://github.com/Frostlinx/Socratic-Zero
蘇格拉底的 「助產術」:從哲學對話到智能體協同
兩千多年前,蘇格拉底在雅典街頭與青年對話,從不直接給出答案,而是通過一連串精準的提問,引導對方暴露認知盲區、修正錯誤信念,最終 「自己生出」 真知。他稱這種方法為 「精神助產術」(maieutics)—— 教師不是知識的灌輸者,而是思維的接生者。
這一古老智慧在今天的大模型時代煥發出驚人迴響。當現代 AI 面臨推理能力瓶頸,傳統路徑依賴海量標註數據 「餵養」 模型,而蘇格拉底卻啟示我們:真正的智能,或許不在於擁有多少答案,而在於能否通過高質量的提問,激發自我修正與持續進化的能力。
受此啓發,阿里巴巴與上海交通大學 EPIC Lab 將這一哲學理念轉化為可計算的協同機制,提出 Socratic-Zero—— 一個由 Solver(學生)、Teacher(導師)與 Generator(學徒)構成的三智能體自進化系統。在這里,沒有外部數據的 「餵養」,只有智能體之間的 「詰問」 與 「反思」;沒有靜態課程的灌輸,只有動態生成的挑戰與反饋。正如蘇格拉底所言:「我不能教人任何東西,只能讓他們思考。」 Socratic-Zero 正是在這一精神下,讓大模型學會 「自己教自己推理」。
論文 Figure 1 (a) 蘇格拉底教學法展現的哲學根基:導師(蘇格拉底)如同思想助產士,通過探詢式提問引導理解;實踐者(亞里士多德)並非被動接受答案,而是循着理性探究之路獲得啟迪;學徒導師(柏拉圖)則通過觀察並內化大師的方法來習得教學之道。(b) Socratic-Zero 框架將這一理念付諸實踐。在此框架中,教師 —— 一個強大的法律語言模型 —— 引導兩個智能體的協同進化。解題器通過生成解決方案並藉助教師反饋進行優化而不斷改進,生成器則通過策略性地提煉教師行為來進化,從而為解題器生成日益適配的課程體系。
核心突破:在極簡啟動條件下,合成數據質量全面超越 GPT-5、Gemini-2.5-Pro、Claude-4.1-Opus 等頂級閉源模型作為數據生成器時的表現。
方法詳解:三智能體 「蘇格拉底鐵三角」
Socratic-Zero 的核心是一個受蘇格拉底 「助產術」 啓發的多智能體系統,包含三個角色:
Solver(學生):嘗試解答問題,並通過偏好學習(DPO)從成功與失敗軌跡中自我修正;
Teacher(導師):基於 Solver 的錯誤,動態生成更具針對性的新問題,精準暴露其知識盲區;
Generator(學徒):模仿 Teacher 的出題策略,通過價值加權監督微調(WSFT)蒸餾其 「教學智慧」,實現課程的規模化生成。
三者構成一個閉環自進化系統:Solver 的弱點驅動 Teacher 出題,Teacher 的行為被 Generator 學習,Generator 產出的新問題又反哺 Solver 訓練 —— 全程無需人類干預。
1. Solver 的在線偏好優化(Online DPO)
Solver 在當前課程上對每個問題生成 ( k=8 ) 條推理軌跡。Teacher 的驗證函數判斷每條軌跡是否正確,從而構建偏好對:正確軌跡為 「勝」,錯誤軌跡為 「負」。
若 Solver 全部失敗,則使用課程中的參考答案作為唯一 「勝」 樣本,確保偏好信號始終存在。Solver 通過 Direct Preference Optimization (DPO) 更新策略。若 Solver 全部失敗,則使用課程中的參考答案作為唯一 「勝」 樣本,確保偏好信號始終存在。
2. Teacher 的自適應出題機制
Teacher 是一個固定的大模型(Qwen3-235B-A22B),具備兩個確定性函數:
驗證函數:判斷解法是否正確;
問題精煉函數:基於 Solver 的錯誤解法,生成一個新問題及其參考答案。
新問題的設計原則是:保留原問題的數學本質,但針對性修復 Solver 的推理漏洞。
關鍵保障機制:當 Solver 對某問題全錯時,Teacher 會啟動 Self-Verification Protocol—— 重新求解該問題,驗證參考答案是否正確,防止低質量問題污染課程
3. Generator 的價值加權蒸餾(WSFT)
為避免持續調用昂貴的 Teacher,Generator 通過 Weighted Supervised Fine-Tuning (WSFT) 學習其出題策略。關鍵創新在於引入價值函數:
4. 為何僅需 100 個種子?
論文 Appendix F 詳細說明了種子選擇協議:
難度對齊:種子來自 MATH 數據集 Level 2–4,確保 Solver 初始成功率 50% 上下,避免 「太易」 或 「全錯」;
領域覆蓋:100 個問題均勻分佈於代數、數論、幾何、組合等 7 個數學子領域;
多樣性保障:通過嵌入聚類確保解法路徑多樣,避免同質化;
質量控制:所有種子經 Teacher 多次驗證,排除歧義或錯誤問題。
這一精心設計的啟動集,為后續自進化提供了高質量、高信息量的 「引信」。
實驗結果:極簡啟動,極致性能
1. Solver 性能:+20.2 個百分點提升
在 7 個數學推理基準(AMC23、AIME24/25、Olympiad、MATH-500、Minerva、GSM8K)上,Socratic-Solver-8B(基於 Qwen3-8B)平均準確率達 56.1%,相比 MetaMath 和 WizardMath(平均 40.7%),絕對提升 +15.4 個百分點;相比 LLM2LLM 提升 +15.2 個百分點。
在高難度競賽題上優勢更顯著:
AIME-24:28.4% vs. 12.3%(+16.1)
Olympiad:55.1% vs. 35.9%(+19.2)
2. Generator 質量:合成數據超越閉源大模型
研究團隊用各模型生成 3,000 道數學題,微調 DeepSeek-R1-Distill-Llama-8B 作為學生模型,測試其下游性能:
關鍵結論:僅用 100 個種子問題啟動的 Socratic-Generator-32B,其合成數據質量已超越 GPT-5、Gemini-2.5-Pro 等閉源大模型作為數據生成器時的表現。
此外,Socratic-Generator-32B 的問題有效性達 95.6%,接近 GPT-5(95.8%),遠超其基座模型 Qwen3-32B(89.1%)。
工程價值:輕量、可復現、高性價比
Socratic-Zero 的訓練流程高度工程友好:
硬件:Solver 訓練僅需 8×NVIDIA H20 GPU,Teacher 推理使用 16×AMD MI308X;
評估可靠性:採用 MathRule(規則提取) + LLM Judge(語義驗證) 雙驗證機制,確保結果可信;
可遷移性:框架設計通用,可擴展至代碼等其他推理領域。
結語
Socratic-Zero 證明:在推理能力構建中,高質量的教學策略可能比模型規模更重要。一個僅用 100 個種子問題啟動的 32B Generator,竟能產出優於 GPT-5 的訓練數據 —— 這為資源受限的團隊提供了新的可能性。
更重要的是,它開啟了一條零數據、自進化的新路徑:無需人類標註,僅靠智能體之間的協同演化,就能實現推理能力的螺旋式上升。
歡迎社區開發者與研究者試用、拓展,共同探索智能體協同進化的邊界。