熱門資訊> 正文

僅100種子題，合成數據質量超GPT-5，阿里、上交提出Socratic-Zero框架

2025-10-23 15:44

（來源：機器之心）

本文（共同）第一作者為王少博（上交 AI）、焦政博（上財）。（共同）通訊作者為魏虎（阿里巴巴）和張林峰（上交 AI）。本文其他作者來自阿里巴巴、武大、浙大等。

最近一篇來自阿里巴巴和上交等單位的 Agent 自進化工作得到了推特大佬們的關注。首先是 Rohan Paul 的兩次轉發：

網友對此也高度評價：

讓我們看看這篇工作到底是怎麼做的？

引言：從「數據飢渴」到「自給自足」

當前大語言模型在數學推理上的突破，高度依賴海量人工標註數據。以 MetaMath 和 WizardMath 為代表的靜態增強方法，雖能通過提示工程合成訓練樣本，但其生成的問題質量不穩定，且無法動態適配模型能力演進，導致訓練信號效率低下。

為突破這一瓶頸，阿里巴巴與上海交通大學 EPIC Lab 聯合提出 Socratic-Zero，一個完全無外部數據依賴的自主推理訓練框架。該方法僅從 100 個種子問題出發，通過三個智能體的協同進化，自動生成高質量、難度自適應的課程，並持續提升模型推理能力。

論文鏈接：https://arxiv.org/pdf/2509.24726
GitHub 地址：https://github.com/Frostlinx/Socratic-Zero

蘇格拉底的「助產術」：從哲學對話到智能體協同

兩千多年前，蘇格拉底在雅典街頭與青年對話，從不直接給出答案，而是通過一連串精準的提問，引導對方暴露認知盲區、修正錯誤信念，最終「自己生出」真知。他稱這種方法為「精神助產術」（maieutics）—— 教師不是知識的灌輸者，而是思維的接生者。

這一古老智慧在今天的大模型時代煥發出驚人迴響。當現代 AI 面臨推理能力瓶頸，傳統路徑依賴海量標註數據「餵養」模型，而蘇格拉底卻啟示我們：真正的智能，或許不在於擁有多少答案，而在於能否通過高質量的提問，激發自我修正與持續進化的能力。

受此啓發，阿里巴巴與上海交通大學 EPIC Lab 將這一哲學理念轉化為可計算的協同機制，提出 Socratic-Zero—— 一個由 Solver（學生）、Teacher（導師）與 Generator（學徒）構成的三智能體自進化系統。在這里，沒有外部數據的「餵養」，只有智能體之間的「詰問」與「反思」；沒有靜態課程的灌輸，只有動態生成的挑戰與反饋。正如蘇格拉底所言：「我不能教人任何東西，只能讓他們思考。」 Socratic-Zero 正是在這一精神下，讓大模型學會「自己教自己推理」。

論文 Figure 1 (a) 蘇格拉底教學法展現的哲學根基：導師（蘇格拉底）如同思想助產士，通過探詢式提問引導理解；實踐者（亞里士多德）並非被動接受答案，而是循着理性探究之路獲得啟迪；學徒導師（柏拉圖）則通過觀察並內化大師的方法來習得教學之道。(b) Socratic-Zero 框架將這一理念付諸實踐。在此框架中，教師 —— 一個強大的法律語言模型 —— 引導兩個智能體的協同進化。解題器通過生成解決方案並藉助教師反饋進行優化而不斷改進，生成器則通過策略性地提煉教師行為來進化，從而為解題器生成日益適配的課程體系。

核心突破：在極簡啟動條件下，合成數據質量全面超越 GPT-5、Gemini-2.5-Pro、Claude-4.1-Opus 等頂級閉源模型作為數據生成器時的表現。

方法詳解：三智能體「蘇格拉底鐵三角」

Socratic-Zero 的核心是一個受蘇格拉底「助產術」啓發的多智能體系統，包含三個角色：

Solver（學生）：嘗試解答問題，並通過偏好學習（DPO）從成功與失敗軌跡中自我修正；
Teacher（導師）：基於 Solver 的錯誤，動態生成更具針對性的新問題，精準暴露其知識盲區；
Generator（學徒）：模仿 Teacher 的出題策略，通過價值加權監督微調（WSFT）蒸餾其「教學智慧」，實現課程的規模化生成。

三者構成一個閉環自進化系統：Solver 的弱點驅動 Teacher 出題，Teacher 的行為被 Generator 學習，Generator 產出的新問題又反哺 Solver 訓練 —— 全程無需人類干預。

1. Solver 的在線偏好優化（Online DPO）

Solver 在當前課程上對每個問題生成 ( k=8 ) 條推理軌跡。Teacher 的驗證函數判斷每條軌跡是否正確，從而構建偏好對：正確軌跡為「勝」，錯誤軌跡為「負」。

若 Solver 全部失敗，則使用課程中的參考答案作為唯一「勝」樣本，確保偏好信號始終存在。Solver 通過 Direct Preference Optimization (DPO) 更新策略。若 Solver 全部失敗，則使用課程中的參考答案作為唯一「勝」樣本，確保偏好信號始終存在。

2. Teacher 的自適應出題機制

Teacher 是一個固定的大模型（Qwen3-235B-A22B），具備兩個確定性函數：

驗證函數：判斷解法是否正確；
問題精煉函數：基於 Solver 的錯誤解法，生成一個新問題及其參考答案。

新問題的設計原則是：保留原問題的數學本質，但針對性修復 Solver 的推理漏洞。

關鍵保障機制：當 Solver 對某問題全錯時，Teacher 會啟動 Self-Verification Protocol—— 重新求解該問題，驗證參考答案是否正確，防止低質量問題污染課程

3. Generator 的價值加權蒸餾（WSFT）

為避免持續調用昂貴的 Teacher，Generator 通過 Weighted Supervised Fine-Tuning (WSFT) 學習其出題策略。關鍵創新在於引入價值函數：

4. 為何僅需 100 個種子？

論文 Appendix F 詳細說明了種子選擇協議：

難度對齊：種子來自 MATH 數據集 Level 2–4，確保 Solver 初始成功率 50% 上下，避免「太易」或「全錯」；
領域覆蓋：100 個問題均勻分佈於代數、數論、幾何、組合等 7 個數學子領域；
多樣性保障：通過嵌入聚類確保解法路徑多樣，避免同質化；
質量控制：所有種子經 Teacher 多次驗證，排除歧義或錯誤問題。

這一精心設計的啟動集，為后續自進化提供了高質量、高信息量的「引信」。

實驗結果：極簡啟動，極致性能

1. Solver 性能：+20.2 個百分點提升

在 7 個數學推理基準（AMC23、AIME24/25、Olympiad、MATH-500、Minerva、GSM8K）上，Socratic-Solver-8B（基於 Qwen3-8B）平均準確率達 56.1%，相比 MetaMath 和 WizardMath（平均 40.7%），絕對提升 +15.4 個百分點；相比 LLM2LLM 提升 +15.2 個百分點。

在高難度競賽題上優勢更顯著：

AIME-24：28.4% vs. 12.3%（+16.1）
Olympiad：55.1% vs. 35.9%（+19.2）

2. Generator 質量：合成數據超越閉源大模型

研究團隊用各模型生成 3,000 道數學題，微調 DeepSeek-R1-Distill-Llama-8B 作為學生模型，測試其下游性能：

關鍵結論：僅用 100 個種子問題啟動的 Socratic-Generator-32B，其合成數據質量已超越 GPT-5、Gemini-2.5-Pro 等閉源大模型作為數據生成器時的表現。

此外，Socratic-Generator-32B 的問題有效性達 95.6%，接近 GPT-5（95.8%），遠超其基座模型 Qwen3-32B（89.1%）。

工程價值：輕量、可復現、高性價比

Socratic-Zero 的訓練流程高度工程友好：

硬件：Solver 訓練僅需 8×NVIDIA H20 GPU，Teacher 推理使用 16×AMD MI308X；
評估可靠性：採用 MathRule（規則提取） + LLM Judge（語義驗證）雙驗證機制，確保結果可信；
可遷移性：框架設計通用，可擴展至代碼等其他推理領域。

結語

Socratic-Zero 證明：在推理能力構建中，高質量的教學策略可能比模型規模更重要。一個僅用 100 個種子問題啟動的 32B Generator，竟能產出優於 GPT-5 的訓練數據 —— 這為資源受限的團隊提供了新的可能性。

更重要的是，它開啟了一條零數據、自進化的新路徑：無需人類標註，僅靠智能體之間的協同演化，就能實現推理能力的螺旋式上升。

歡迎社區開發者與研究者試用、拓展，共同探索智能體協同進化的邊界。

僅100種子題，合成數據質量超GPT-5，阿里、上交提出Socratic-Zero框架

推薦文章

華盛早報 | 中美將於今起進行經貿磋商；盤后漲超7%！英特爾Q3營收增長2.8%

10月24日外盤頭條：美政府考慮扶持量子計算產業 特朗普赦免幣安創始人 小摩和美行預計美聯儲本月停止縮表

營收創新高、利潤暴跌29%！馬斯克的AI豪賭能撐起特斯拉的未來嗎？

美股機會日報 | 地緣政治衝突加劇！歐美對俄製裁致使油價大漲；特斯拉盤前跌超3%

財報前瞻 | iPhone17熱銷「帶飛」蘋果股價！大行績前集體齊聲看漲，Q4季報重點關注什麼？

金價連續第三天回調 分析師稱基本面並未轉變

特斯拉高管解讀Q3財報：三星芯片協議不會取代英偉達

甲骨文兩日跌超10%，「超預期宏偉目標」不再「吃香」？

10月24日外盤頭條：美政府考慮扶持量子計算產業特朗普赦免幣安創始人小摩和美行預計美聯儲本月停止縮表

金價連續第三天回調分析師稱基本面並未轉變