繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

「微調已死」再添籌碼,谷歌擴展AI自我進化範式,成功經驗與失敗教訓雙向學習

2025-10-12 16:02

(來源:機器之心)

這幾天,關於「微調已死」的言論吸引了學術圈的廣泛關注。

一篇來自斯坦福大學、SambaNova、UC 伯克利的論文提出了一種名為 Agentic Context Engineering(智能體 / 主動式上下文工程)的技術,讓語言模型無需微調也能實現自我提升!

其實,在更早的時候,谷歌一篇名為《ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory》的論文提出了一個與 Agentic Context Engineering 類似的概念 ——ReasoningBank,用於智能體系統的創新記憶框架,從智能體自身判斷的成功和失敗經驗中提煉並組織記憶項,無需真實標籤

如圖 1 所示,利用 ReasoningBank 不僅可以捕捉成功中的有效策略,還能從失敗中提取重要的預防教訓,將這些內容抽象成一系列可操作的原則。這個過程在一個閉環中運行:當面對新任務時,智能體從 ReasoningBank 中檢索相關記憶來指導其行動。隨后,新的經驗被分析、提煉並重新整合回 ReasoningBank,使得智能體能夠不斷進化並提升其戰略能力。

通過將 ReasoningBank 作為強大的經驗學習者,谷歌研究了經驗擴展,以建立記憶與測試時擴展之間的強大協同效應。谷歌並不通過增加更多任務來擴展經驗的廣度,而是通過深入探索每個單一任務來擴展經驗的深度。

此外,谷歌引入了記憶感知的測試時擴展(MaTTS),在並行和順序設置下都進行了應用,通過生成多樣的探索來提供對比信號,使 ReasoningBank 能夠合成更具普遍性的記憶。

最終,在記憶與測試時擴展之間實現了協同效應:高質量的記憶將擴展引導到更有前景的路徑,而豐富的經驗則進一步錘鍊出更強的記憶。這種正反饋循環使得基於記憶的經驗擴展成為智能體的一個新擴展維度。

論文地址:https://arxiv.org/pdf/2509.25140

對於谷歌開發的這種能實時從自身錯誤中學習的 AI,網友紛紛看好。

方法概覽

下圖為 ReasoningBank 整體框架,其中經驗被提煉成結構化的記憶項,包含標題、描述和內容。對於每個新任務,智能體從中檢索相關項與環境進行互動,並從成功和失敗的軌跡中構建新的記憶項。這些記憶項隨后被整合到 ReasoningBank 中,形成一個閉環的記憶過程。

其中,ReasoningBank 包含了以下幾個關鍵組件:

記憶結構。ReasoningBank 中的記憶項是從過去的經驗中設計和提煉出的結構化知識單元,它們抽象了低級執行細節,同時保留了可轉移的推理模式和策略。每個記憶項包含三個部分:(i) 標題,作為簡潔的標識符,總結核心策略或推理模式;(ii) 描述,提供記憶項的簡短一句話總結;(iii) 內容,記錄從過去經驗中提煉出的推理步驟、決策理由或操作見解。提取出的記憶項既具有人類可理解性,又具備機器可用性,有助於高效使用和與智能體的集成。

ReasoningBank 與智能體的集成。配備 ReasoningBank 的智能體可以從一個精心挑選的可轉移策略池中汲取經驗來指導決策。這使得智能體能夠回憶有效的見解,避免以前觀察到的陷阱,並更穩健地適應未見過的查詢。集成過程分為三個步驟:(i) 記憶檢索,(ii) 記憶構建,(iii) 記憶整合。

MaTTS:記憶感知的測試時擴展。ReasoningBank 與測試時擴展的直接結合如圖 3 (a) 所示,其中更多的軌跡被獨立地轉換為更多的記憶項。不過,這種基礎方法並不理想,因為它沒有利用來自同一問題上冗余探索所產生的對比信號,這限制了測試時擴展所帶來的性能優勢。為此,谷歌提出了 MaTTS,它是測試時擴展與 ReasoningBank 的全新集成。與基礎方法不同,MaTTS 刻意從擴展過程中生成的大量成功和失敗軌跡中學習,以便更有效地策劃記憶。谷歌為 MaTTS 設計了兩種互補的實現方式:並行擴展和順序擴展,如圖 3 (b) 和 3 (c) 所示。

並行擴展。在並行設置中,谷歌在檢索到的記憶項的指導下,為同一查詢生成多個軌跡。通過對不同軌跡進行比較,智能體可以識別一致的推理模式,同時過濾掉虛假的解決方案。這個過程通過單一查詢的多次試驗促使多樣化的探索,從而實現更可靠的記憶策劃。

順序擴展。在順序擴展中,谷歌在初步完成后,迭代地在單一軌跡內完善推理,遵循自我精煉的原則。在這個過程中,自我精煉中生成的中間筆記也被用作寶貴的記憶信號,因為它們捕捉了推理嘗試、修正和見解,這些內容可能不會出現在最終的解決方案中。

實驗結果

谷歌在具有挑戰性的基準測試上進行了廣泛的實驗,包括了網頁瀏覽(WebArena、Mind2Web)和軟件工程(SWE-Bench-Verified)任務。

表 1、2、3 分別展示了 ReasoningBank 在 WebArena、Mind2Web 和 SWE-Bench-Verified 上的評估結果,表明了在有效性(相對提高高達 34.2%)和效率(減少 16.0% 的交互步驟)上均優於基準方法。

特別地,ReasoningBank 與 MaTTS 的協同效果最好,使其成為基於記憶的經驗擴展的關鍵組成部分。谷歌在 Webarena-Shopping 子集上實驗了 MaTTS 與 Gemini-2.5-flash 的結合。默認下,MaTTS 集成了 ReasoningBank,但它也可以使用其他記憶機制。

爲了研究整體的擴展效果,谷歌進行了以下基準測試:(i) 沒有記憶機制的 MaTTS(MaTTS w/o memory),這代表了沒有記憶機制的擴展設置;(ii) 沒有聚合的 MaTTS(MaTTS w/o aggregation);(iii) MaTTS,用於展示與擴展因子 k 相關的效果。值得注意的是,k = 1 是沒有擴展的設置。

結果如圖 4 所示,表明並行擴展和順序擴展都能提升性能。

更多實驗結果請參閱原論文。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。