DeepMind新突破：AI智能體自主發現RL算法，性能超主流算法

發布時間：2025-10-28 15:22 來源：快訊作者：趙云飛

當人工智能（AI）開始具備自主“進化”能力，人類在技術發展中的角色或將被重新定義。近日，Google DeepMind團隊在權威科學期刊《自然》上發表了一項突破性研究，提出了一種名為DiscoRL的全新方法，使智能體（Agent）能夠在多環境交互中自主發現強化學習（RL）規則，無需依賴人類設計的算法。實驗表明，該方法在Atari游戲基準測試中超越了MuZero等主流RL算法，并在未見過的環境中展現出高效穩定的性能。

強化學習是AI實現自主決策的核心技術之一，但長期以來，如何讓智能體自主開發高效的RL算法一直是研究難點。傳統方法依賴人類專家設計算法，不僅耗時費力，且難以適應復雜多變的環境。DeepMind團隊提出的DiscoRL通過多代智能體在不同環境中的交互經驗，實現了RL規則的自主發現。其核心在于結合智能體優化與元優化：智能體通過更新策略和預測優化自身參數，元網絡則通過調整學習規則的目標，最大化智能體的累積獎勵。

具體而言，智能體的訓練過程涉及兩類優化：在智能體優化階段，研究團隊采用Kullback–Leibler散度衡量策略與預測的差距，確保訓練穩定性。智能體會輸出策略（π）、觀測預測（y）、動作預測（z）等結果，元網絡為其生成學習目標，智能體據此更新自身參數。同時，模型引入輔助損失函數，優化動作價值與策略預測，提升學習效率。在元優化階段，多個智能體在不同環境中獨立學習，元網絡根據整體表現計算元梯度，調整自身參數以最大化累積回報。智能體參數定期重置，使學習規則能在有限時間內快速提升性能。

為驗證DiscoRL的有效性，研究團隊以四分位數平均值（IQM）作為綜合性能指標，在Atari基準測試中進行了評估。基于57款Atari游戲訓練的Disco57規則，在相同游戲中的IQM得分達13.86，超越了MuZero、Dreamer等現有算法，且在實際運行效率上顯著優于MuZero。進一步測試顯示，Disco57在16個ProcGen二維游戲、Crafter基準測試中均表現出色，并在NetHack NeurIPS 2021挑戰賽中獲得第三名，且未使用任何領域特定知識。

研究還發現，環境復雜性與多樣性對RL規則的泛化能力具有關鍵影響。基于Atari、ProcGen和DMLab-30三個基準（共103個環境）發現的Disco103規則，在Crafter基準上達到人類水平表現，并在Sokoban任務中接近MuZero的最先進性能。這表明，參與訓練的環境越復雜多樣，所發現的RL規則越強大，即使面對未見過的環境也能保持高效。

在效率與穩定性方面，DiscoRL同樣表現突出。最優版本的Disco57規則在每個Atari游戲約6億步內被發現，相當于在57個游戲中進行3輪實驗，遠低于傳統人工設計算法所需的實驗次數和人力投入。隨著訓練環境數量增加，DiscoRL在未見過的ProcGen基準上的性能持續提升，顯示出強大的擴展性。

DeepMind團隊指出，未來高級AI的RL算法設計可能由機器主導，通過高效擴展數據與計算能力實現自動化，無需人類干預。這一突破雖為學術領域帶來新潛力，但也引發了對技術社會影響的擔憂——當前社會尚未完全準備好應對此類技術的廣泛應用。

更多>同類內容