AlphaGo之父找到創造強化學習算法新方法：讓AI自己設計

2025-10-28 16:32

強化學習是近來 AI 領域最熱門的話題之一，新算法也在不斷涌現。

那麼，問題來了：AI 能不能自己發現強大的強化學習算法呢？

近日，谷歌 DeepMind 團隊在 Nature 上發表的一篇論文探索了這一可能性。並且，他們得到了非常積極的結果：機器確實能夠自主發現性能達到 SOTA 的強化學習規則，並且其表現優於人工設計的規則。

標題：Discovering state-of-the-art reinforcement learning algorithms

地址：https://www.nature.com/articles/s41586-025-09761-x

值得注意的是，該團隊的負責人、通訊作者是強化學習領域的引領研究者 David Silver，他也曾領導了著名的 AlphaGo 項目，常被稱為「AlphaGo 之父」。截至目前，David Silver 的引用量已接近 27 萬。本研究共有四位共同一作：Junhyuk Oh、Greg Farquhar、Iurii Kemaev、Dan A. Calian。

具體到方法上，該團隊的思路是：在大量複雜環境中，基於大量智能體的經驗積累，進行元學習（meta-learning）。這個方法能夠發現智能體在更新策略與預測時所遵循的強化學習規則。

該團隊還進行了大規模實驗，結果發現這一「自動發現的規則」在經典的 Atari 基準測試上超越了所有現有方法，並且在若干它從未見過的高難度基準測試上也優於多種 SOTA 強化學習算法。

這一研究結果可謂意義重大。它意味着，未來實現高級 AI 所需的強化學習算法或許將不再依賴人工設計，而是能夠從智能體自身的經驗中自動涌現與進化。

發現方法

該團隊的發現方法涉及兩種類型的優化：智能體優化和元優化。智能體參數通過將其策略和預測更新至強化學習規則所產生的目標來進行優化。與此同時，強化學習規則的元參數則通過更新其目標來進行優化，以最大化智能體的累積獎勵。

智能體網絡

許多強化學習研究考慮的是智能體應該做出什麼預測（例如，價值），以及應該使用什麼損失函數來學習這些預測（例如，TD 學習）和改進策略（例如，策略梯度）。

該團隊沒有采用手工設計的方式，而是定義了一個沒有預定義語義、富有表現力的預測空間，並通過使用元網絡進行元學習，來找出智能體需要優化的內容。他們希望在保留表徵現有強化學習算法中核心思想能力的同時，也支持廣闊的新穎算法可能性空間。

為此，該團隊讓由 θ 參數化的智能體除了輸出策略 π 之外，還輸出兩種類型的預測：一個基於觀測的向量預測 y (s) 和一個基於動作的向量預測 z (s,a) ，其中 s 和 a 分別是觀測和動作 (見下圖)。

這些預測的形式源於「預測」與「控制」之間的根本區別。例如，價值函數通常被分為狀態函數 v (s) (用於預測) 和動作函數 q (s,a) (用於控制)。強化學習中的許多其他概念，例如獎勵和后繼特徵，也同樣具有一個基於觀測的版本 s↦ℝ^m 和一個基於動作的版本 s,a↦ℝ^m. 因此，這對預測 (y,z) 的函數形式足夠通用，可以用來表示 RL 中的許多現有基本概念，但又不僅限於此。

除了這些有待發現的預測之外，在我們的大多數實驗中，智能體還會做出具有預定義語義的預測。具體來説，智能體會產生一個動作價值函數 q (s,a) 和一個基於動作的輔助策略預測 p (s,a)。這樣做是爲了鼓勵發現過程能更專注於通過 y 和 z 來發現新概念。

元網絡

很大一部分現代強化學習規則採用了 RL 的「前向視圖」。在這種視圖下，RL 規則接收一個從時間步 t 到 t+n 的軌跡，並利用這些信息來更新智能體的預測或策略。它們通常會將預測或策略朝着「引導目標」更新，即朝着未來的預測值更新。

相應地，該團隊的 RL 規則使用一個元網絡（圖 1c）作為函數，來決定智能體應將其預測和策略更新至的目標。爲了在時間步 t 產生目標，該元網絡會接收從時間步 t 到 t+n 的一段軌跡作為輸入，這段軌跡包含了智能體的預測、策略、獎勵以及回合是否終止的信息。它使用一個標準的 LSTM 來處理這些輸入，當然也可以使用其他架構。

元網絡的輸入和輸出選擇保留了手工設計的 RL 規則所具備的一些理想特性：

首先，元網絡可以處理任何觀測信息，以及任何大小的離散動作空間。這是因為它不直接接收觀測作為輸入，而是通過智能體的預測間接獲取信息。此外，它通過在不同動作維度間共享權重來處理特定於動作的輸入和輸出。因此，它可以泛化到截然不同的環境中。

其次，元網絡與智能體網絡的設計無關，因為它只接收智能體網絡的輸出。只要智能體網絡能產生所需形式的輸出 (π, y, z)，被發現的 RL 規則就可以泛化到任意的智能體架構或規模。

第三，由元網絡定義的搜索空間包含了「引導」這一重要的算法思想。

第四，由於元網絡同時處理策略和預測，它不僅可以元學習輔助任務，還可以直接使用預測來更新策略（例如，為減少方差) 提供一個基線。

最后，輸出目標這種方式比輸出一個標量損失函數具有更強的表達能力，因為它將 Q 學習這樣的半梯度方法也納入了搜索空間。

在繼承標準 RL 算法這些特性的基礎上，這個參數豐富的神經網絡使得被發現的規則能夠以可能高得多的效率和更精細的上下文感知方式來實現算法。

智能體優化

智能體的參數 (θ) 會被更新，以最小化其預測和策略與來自元網絡的目標之間的距離。智能體的損失函數可以表示為：

其中 D (p,q) 是 p 和 q 之間的一種距離函數。團隊選擇 KL 散度作為距離函數，因為它足夠通用，並且先前已被發現在元優化中有助於簡化問題。這里的 π_θ,y_θ,z_θ 是智能體網絡的輸出，而 ̂π, ̂y,ẑ 是元網絡的輸出，每個向量都應用了 softmax 函數進行歸一化。

輔助損失 L_aux 用於那些具有預定義語義的預測，即動作價值 (q) 和輔助策略預測 (p) ，具體如下：

其中 ̂q 是來自 Retrace 算法的動作價值目標，並被投影到一個 two-hot 向量 2；而 p̂=π_θ(s′) 是下一步的策略。爲了與其他損失保持一致，團隊同樣使用 KL 散度作為距離函數 D。

元優化

該團隊的目標是發現一個 RL 規則（由元參數 η 表示的元網絡來代表），它能讓智能體在各種訓練環境中最大化獎勵。這個發現目標 J (η) 及其元梯度

可以表示為：

其中

表示從一個分佈中採樣的環境，θ 表示由初始參數分佈誘導、並在使用 RL 規則學習過程中不斷演變的智能體參數。

是期望折扣獎勵總和，即典型的 RL 目標。元參數 η 遵循上述方程，使用梯度上升進行優化。

爲了估計元梯度，團隊在一套採樣的環境中實例化一個智能體集羣，它們根據元網絡進行學習。爲了確保這種近似接近團隊感興趣的真實分佈，團隊使用了大量來自挑戰性基準的複雜環境。這與先前的工作集中在少數簡單環境上形成對比。因此，這個發現過程會面臨多種多樣的 RL 挑戰，例如獎勵的稀疏性、任務的長度，以及環境的部分可觀測性或隨機性。

每個智能體的參數都會被定期重置，以鼓勵更新規則在有限的智能體生命周期內取得快速的學習進展。與先前關於元梯度 RL 的工作一樣，元梯度項

可以通過鏈式法則分為兩個梯度項：

和

。第一項可以被理解為對智能體更新過程的梯度，而第二項是標準 RL 目標的梯度。

爲了估計第一項，該團隊迭代地更新智能體多次，並通過整個更新過程進行反向傳播，如圖 1d 所示。爲了使其易於處理，團隊使用滑動窗口對 20 次智能體更新進行反向傳播。最后，爲了估計第二項，團隊使用優勢演員 - 評論家 (A2C) 方法。爲了估計優勢，團隊訓練了一個元價值函數，這是一個僅用於發現過程的價值函數。

實驗結果

該團隊在一套複雜的環境中，通過一個大型智能體集羣實現了新發現方法。

該團隊將發現的 RL 規則稱為 DiscoRL。在評估中，該團隊使用歸一化分數的四分位均值 (IQM) 來衡量聚合性能，該基準由多個任務組成。IQM 之前已被證明是一種統計上可靠的指標。

Atari

Atari 基準是 RL 歷史上研究最多的基準之一，由 57 款 Atari 2600 遊戲組成。它們需要複雜的策略、規劃和長期 credit 分配，這使得 AI 智能體難以精通。在過去的十年中，已有數百種 RL 算法在該基準上進行了評估，其中包括 MuZero 和 Dreamer。

爲了觀察直接從該基準中發現的規則能有多強大，該團隊元訓練 (meta-trained) 了一個 RL 規則，命名為 Disco57，並在同樣的 57 款遊戲上對其進行了評估（見下圖 a）。

Disco57 的各個實驗基準上的表現

在此評估中，該團隊使用的網絡架構的參數數量與 MuZero 使用的數量相當。這是一個比發現過程中使用的網絡更大的網絡；因此，被發現的 RL 規則必須能泛化到這種設置。Disco57 取得了 13.86 的 IQM 分數，在 Atari 基準上超越了所有現有的 RL 規則，並且其運行效率 (wall-clock efficiency) 遠高於當前最先進的 MuZero（見下圖）。

這表明：該團隊的新方法可以從此類具有挑戰性的環境中自動發現強大的 RL 規則。

泛化能力

該團隊進一步研究了 Disco57 的泛化能力，方法是在一系列其在發現過程中從未接觸過的留存基準上對其進行評估。

這些基準包括未曾見過的觀測和動作空間、多樣化的環境動態、各種獎勵結構以及未曾見過的智能體網絡架構。元訓練的超參數僅在訓練環境（即 Atari）上進行了調整，以防止該規則被隱式地針對保留基準進行優化。

在 ProcGen 基準上的結果顯示，Disco57 優於所有現有的已發表方法，包括 MuZero 和 PPO，儘管它在發現期間從未與 ProcGen 環境交互過。ProcGen 由 16 個程序生成的 2D 遊戲組成。

此外，Disco57 也在 Crafter 上取得了有競爭力的表現，在 Crafter 中智能體需要學習廣泛的能力才能生存。Disco57 在 NetHack NeurIPS 2021 挑戰賽的排行榜上獲得了第 3 名，該比賽有 40 多個團隊參加。

與比賽中排名靠前的提交智能體不同，Disco57 沒有使用任何領域特定知識來定義子任務或進行獎勵塑造 (reward shaping)。爲了進行公平比較，該團隊使用與 Disco57 相同的設置，通過 IMPALA 算法訓練了一個智能體。IMPALA 的表現要弱得多，這表明 Disco57 發現了一種比標準方法更高效的 RL 規則。

除了環境之外，Disco57 在評估中還對一系列智能體特定設置（如網絡大小、重放比例 (replay ratio) 和超參數）表現出了魯棒性。

複雜多樣的環境

爲了理解複雜多樣的環境對於發現過程的重要性，該團隊使用額外的環境進一步擴大了元學習的規模。

具體來説，該團隊使用了由 Atari、ProcGen 和 DMLab-30 基準組成的 103 個更具多樣性的環境，發現了另一個規則 Disco103。該規則在 Atari 基準上表現相似，同時之前所示的每一個已見和未見的基準上都提高了分數。特別是，Disco103 在 Crafter 上達到了人類水平的表現，並在 Sokoban 上接近了 MuZero 的 SOTA 性能。

這些結果表明，用於發現的環境集越複雜、越多樣化，發現的規則就越強大、越通用，即使在發現期間未曾見過的保留環境上也是如此。與 Disco57 相比，發現 Disco103 除了環境集不同之外，不需要對發現方法進行任何更改。這表明發現過程本身是穩健的、可擴展的和通用的。

爲了進一步研究使用複雜環境的重要性，該團隊在 57 個從先前工作 9 擴展而來的網格世界 (grid-world) 任務上運行了該團隊的發現過程，使用了與 Disco57 相同的元學習設置。新規則在 Atari 基準上的表現明顯更差（見下圖 c）。

這驗證了該團隊關於直接從複雜且具有挑戰性的環境中進行元學習的重要性的假設。雖然使用這樣的環境至關重要，但並不需要精心策劃正確的環境組合；該團隊只是簡單地使用了文獻中流行的基準。

效率與可擴展性

爲了進一步瞭解該團隊方法的可擴展性和效率，該團隊在發現過程中評估了多個 Disco57（見上圖 a）。最佳規則是在每個 Atari 遊戲約 6 億步 (內發現的，這相當於在 57 個 Atari 遊戲上僅進行了 3 次實驗。這可以説比手動發現 RL 規則更有效率，后者通常需要執行更多的實驗，此外還要花費人類研究員的時間。

此外，隨着用於發現的 Atari 遊戲數量的增加，DiscoRL 在未見過的 ProcGen 基準上表現得更好（見上圖 b），這表明最終得到的 RL 規則隨着用於發現的環境數量和多樣性的增加而表現出良好的擴展性。換句話説，被發現規則的性能是數據（即環境）和計算量的函數。

發現新預測的效果

爲了研究被發現的預測 (圖 1b 中的 y, z) 其語義的效果，該團隊通過改變智能體的輸出（包含或不包含某些類型的預測）來比較不同的規則。上圖 c 中的結果表明，使用價值函數可極大地改善發現過程，這突顯了 RL 這一基本概念的重要性。

另一方面，上圖 c 的結果也表明，在預定義預測之外發現新預測語義（ y 和 z ）的重要性。總的來説，與先前的工作相比，擴大發現的範圍是至關重要的。在下一節中，該團隊將提供進一步的分析，以揭示發現了哪些語義。

分析

定性分析

該團隊以 Disco57 為案例，分析了被發現規則的性質（見下圖）。

從定性上看，被發現的預測在諸如收到獎勵或策略熵發生變化等顯著事件之前會出現峰值（圖 a）。

該團隊還通過測量與觀測的每個部分相關的梯度範數，研究了觀測中的哪些特徵會導致元學習的預測產生強烈反應。圖 b 的結果顯示，元學習的預測傾向於關注未來可能相關的物體，這與策略和價值函數所關注的地方不同。這些結果表明，DiscoRL 已經學會了在一個適度的範圍內識別和預測顯著事件，從而補充了諸如策略和價值函數等現有概念。

信息分析

爲了證實定性分析的發現，該團隊進一步研究了預測中包含哪些信息。該團隊首先在 10 款 Atari 遊戲上從 DiscoRL 智能體收集數據，並訓練一個神經網絡，使其從被發現的預測、策略或價值函數中預測該團隊感興趣的量。

圖 c 中的結果顯示，與策略和價值相比，被發現的預測包含更多關於即將到來的高額獎勵和未來策略熵的信息。這表明，被發現的預測可能捕獲了策略和價值未能很好捕獲的、與任務相關的獨特信息。

引導機制的涌現

該團隊還發現了 DiscoRL 使用引導 (bootstrapping) 機制的證據。當元網絡在未來時間步的預測輸入受到擾動時，它會強烈影響當前的目標圖 d）。這意味着未來的預測被用來構建當前預測的目標。

事實證明，這種引導機制和被發現的預測對於性能至關重要（圖 e）。如果在計算 y 和 z 的目標時，將輸入到元網絡的 y 和 z 設置為零（從而阻止引導），性能會大幅下降。如果將 y 和 z 的輸入設置為零以計算包括策略目標在內的所有目標，性能會進一步下降。這表明，被發現的預測被大量用於為策略更新提供信息，而不僅僅是作為輔助任務。

總結

讓機器能夠自己發現學習算法是人工智能中最有前途的想法之一，因為它具有開放式自我改進的潛力。

這項工作朝着機器設計的強化學習算法邁出了重要一步，這些算法在具有挑戰性的環境中可以與一些最佳的人工設計算法相媲美，甚至超越它們。

該團隊還表明，隨着發現的規則接觸到更多樣化的環境，它會變得更強、更通用。這表明，未來高級人工智能的 RL 算法設計，可能會由那些能夠隨數據和計算資源有效擴展的機器來主導。

本文來自微信公眾號「機器之心」（ID：almosthuman2014），編輯：+0、Panda，36氪經授權發佈。

AlphaGo之父找到創造強化學習算法新方法：讓AI自己設計

發現方法

智能體網絡

元網絡

智能體優化

元優化

實驗結果

Atari

泛化能力

複雜多樣的環境

效率與可擴展性

發現新預測的效果

分析

定性分析

信息分析

引導機制的涌現

總結

推薦文章

港股周報 | 中美經貿磋商成果：取消10%關税、暫停對等關税！恆指三連跌失守26000點關口

一周IPO | 滴普科技上市三日股價漲320%；明略科技、賽力斯下周上市；小馬智行、旺山旺水等5家招股中

美股機會日報 | 美參議院通過終止特朗普全面關税決議！財報季多股績后大漲，亞馬遜盤前漲超12%

新股申購 | 非洲嬰兒紙尿褲之王樂舒適今起招股，一手入場費5292.85港元

華盛早報 | 美參議院通過決議：終止特朗普「全球徵稅」！史上最大IPO？OpenAI預計2026年籌備上市；亞馬遜盤后狂飆14%

美股機會日報 | 特朗普：下調芬太尼關税！並於明年4月訪問中國；科技股績后波動加劇！谷歌盤前大漲超8%

AI業務勢頭火熱！Alphabet(GOOGL.US)再次上調資本支出指引，Q3雲積壓訂單升至1550億美元

星巴克(SBUX.US)復甦跡象初現！Q4營收超預期 同店銷售重回正增長

星巴克(SBUX.US)復甦跡象初現！Q4營收超預期同店銷售重回正增長