繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

DeepMind再登Nature:AI Agent造出了最強RL算法

2025-10-28 08:29

人工智能(AI)的主要目標之一,是設計出能夠像人類一樣在複雜環境中自主預測、行動、最終實現目標的智能體(Agent)。智能體的訓練離不開強化學習(RL),相關研究也已經持續了幾十年,但讓智能體自主開發高效的 RL 算法的目標始終難以實現

針對這一痛點,Google DeepMind 團隊提出了一種通過多代智能體在不同環境中的交互經驗來自主發現 RL 規則的方法

在大型實驗中,DiscoRL 不僅在 Atari 基準測試中超越所有現有規則,更在未曾接觸過的挑戰性基準測試中超越人工設計,擊敗了多項主流 RL 算法。相關研究論文已發表在權威科學期刊 Nature 上。

論文鏈接:https://www.nature.com/articles/s41586-025-09761-x

這表明,未來用於構建高級 AI 的 RL 算法,可能不再需要人工設計,而是能夠由智能體自身的經驗自動發現。

Agent 「憑啥」自主發現 RL 算法?

據論文描述,他們的發現方法涉及兩種優化:智能體優化與元優化。

智能體參數通過更新其策略和預測來優化,使其趨向於 RL 規則生成的目標。同時,通過更新 RL 規則的目標來優化其元參數,從而最大化智能體的累積獎勵。

圖|智能體自主發現 RL 算法的全過程:(a) 發現過程:多個智能體在不同環境中並行交互與訓練,遵循由元網絡定義的學習規則;元網絡在此過程中不斷優化,以提升整體表現;(b) 智能體結構:每個智能體輸出策略(π)、觀測預測(y)、動作預測(z)、動作價值(q)與輔助策略預測(p),其中 y 與 z 的語義由元網絡確定;(c) 元網絡結構:元網絡接收智能體的輸出軌跡及環境獎勵與終止信號,生成針對當前與未來時刻的目標預測;智能體據此最小化預測誤差進行更新;(d) 元優化過程:通過對智能體更新過程的反向傳播計算元梯度,優化元參數,以最大化智能體在環境中的累計回報。

在智能體優化方面,研究團隊使用 Kullback–Leibler 散度衡量兩者之間的差距,以確保訓練過程的穩定性與普適性。智能體會輸出策略、觀測預測和動作預測三類結果,元網絡為其生成相應的學習目標。智能體再根據這些目標更新自身,從而逐步改進策略。同時,模型還引入了一個輔助損失,用於優化預定義的動作價值與策略預測,使學習過程更穩定、更高效。

在元優化方面,研究團隊讓多個智能體在不同環境中獨立學習,元網絡則根據它們的整體表現計算元梯度,並調整自身參數。智能體的參數會定期重置,使學習規則能在有限時間內迅速提升表現。元梯度的計算結合了智能體的更新過程與標準強化學習目標的優化,具體由反向傳播與優勢行動者-評論家(A2C)算法完成,並配合一個專用於元學習階段的價值函數進行評估。

最強 RL 算法,AI 造

為驗證 DiscoRL,團隊評估時採用四分位數平均值(IQM)作為綜合性能指標,該指標基於多任務基準測試的標準化分數,已被證實具有統計學可靠性。

1.Atari 實驗

Atari 基準測試是強化學習領域最具代表性的評估標準之一。為驗證算法自動發現的能力,團隊基於 57 款 Atari 遊戲元訓練出 Disco57 規則,並在相同遊戲中評估。

評估時使用與 MuZero 相當規模的網絡架構,結果顯示,Disco57 的 IQM 達到 13.86,在 Atari 基準上超越了包括 MuZero、Dreamer 在內的所有現有強化學習規則,並且在實際運行效率(wall-clock efficiency)上顯著優於最先進的 MuZero。

圖|Disco57 在 Atari 實驗中的評估結果。橫軸表示環境交互步數(以百萬為單位),縱軸表示在基準測試中 IQM 得分。

2.泛化能力

研究團隊進一步評估了 Disco57 的通用性,在多個它從未見過的獨立基準測試上進行測試。在 16 個 ProcGen 二維遊戲上,Disco57 超越了包括 MuZero 和 PPO 在內的所有已發表方法;在 Crafter 基準測試中也表現出競爭力;在 NetHack NeurIPS 2021 挑戰賽中獲得第三名,且未使用任何領域特定知識。對比在相同設置下訓練的 IMPALA 智能體,Disco57 明顯更高效。此外,它在網絡規模、重放比例和超參數調整等多種設置下也表現魯棒。

圖|Disco57 在 ProcGen、Crafter、 NetHack NeurIPS 中的評估結果。

3.環境的複雜性和多樣性

研究團隊基於 Atari、ProcGen 和 DMLab-30 三個基準,共 103 個環境,發現了另一種 RL 規則 Disco103。

Disco103 在 Atari 基準上的表現與 Disco57 相當,尤其是在 Crafter 基準上達到了人類水平的表現,並在 Sokoban 上接近了 MuZero 的最先進性能。

這些結果表明:用於發現的環境越複雜、越多樣,所發現的強化學習規則就越強大、越具泛化能力,即使是在訓練過程中從未見過的環境中也能保持出色表現。

圖|Disco103 與 Disco57 在相同測試中的對比結果。藍線(Disco57)表示在 Atari 基準上發現的規則,橙線(Disco103)表示在 Atari、ProcGen 和 DMLab-30 基準上共同發現的規則。

4.高效率和穩定性

研究團隊對多個 Disco57 的版本進行了評估。最優表現是在每個 Atari 遊戲約 6 億步內被發現,相當於在 57 個 Atari 遊戲上進行 3 輪實驗,這相比傳統的人工設計 RL 規則要高效得多——后者往往需要更多實驗次數,以及大量研究人員的時間投入。

此外,隨着用於實驗的 Atari 遊戲數量增加,DiscoRL 在未見過的 ProcGen 基準上的表現也隨之提升,這表明所發現的 RL 規則能夠隨着參與實驗的環境數量與多樣性的增加而得到擴展。換句話説,所發現 RL 的性能取決於數據(即環境)與計算量。

圖|DiscoRL 最佳規則在每款遊戲約6億步內被發現;隨着用於發現的訓練環境數量的增加,DiscoRL 在未見過的 ProcGen 基準測試上的性能也變得更強。

研究團隊表示,未來高級 AI 的 RL 算法設計,可能將由能高效擴展數據與計算能力的機器主導,不再需要人類設計

這一發現或許令人振奮但又引發擔憂,一方面它帶來了學術領域的新潛力,另一方面,當前社會並未做好迎接這項技術的準備。

本文來自微信公眾號 「學術頭條」(ID:SciTouTiao),整理:瀟瀟 ,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。