當人工智能(AI)開始具備自主“進化”能力,人類在技術發展中的角色或將被重新定義。近日,Google DeepMind團隊在權威科學期刊《自然》上發表了一項突破性研究,提出了一種名為DiscoRL的全新方法,使智能體(Agent)能夠在多環境交互中自主發現強化學習(RL)規則,無需依賴人類設計的算法。實驗表明,該方法在Atari游戲基準測試中超越了MuZero等主流RL算法,并在未見過的環境中展現出高效穩定的性能。
強化學習是AI實現自主決策的核心技術之一,但長期以來,如何讓智能體自主開發高效的RL算法一直是研究難點。傳統方法依賴人類專家設計算法,不僅耗時費力,且難以適應復雜多變的環境。DeepMind團隊提出的DiscoRL通過多代智能體在不同環境中的交互經驗,實現了RL規則的自主發現。其核心在于結合智能體優化與元優化:智能體通過更新策略和預測優化自身參數,元網絡則通過調整學習規則的目標,最大化智能體的累積獎勵。
具體而言,智能體的訓練過程涉及兩類優化:在智能體優化階段,研究團隊采用Kullback–Leibler散度衡量策略與預測的差距,確保訓練穩定性。智能體會輸出策略(π)、觀測預測(y)、動作預測(z)等結果,元網絡為其生成學習目標,智能體據此更新自身參數。同時,模型引入輔助損失函數,優化動作價值與策略預測,提升學習效率。在元優化階段,多個智能體在不同環境中獨立學習,元網絡根據整體表現計算元梯度,調整自身參數以最大化累積回報。智能體參數定期重置,使學習規則能在有限時間內快速提升性能。
為驗證DiscoRL的有效性,研究團隊以四分位數平均值(IQM)作為綜合性能指標,在Atari基準測試中進行了評估。基于57款Atari游戲訓練的Disco57規則,在相同游戲中的IQM得分達13.86,超越了MuZero、Dreamer等現有算法,且在實際運行效率上顯著優于MuZero。進一步測試顯示,Disco57在16個ProcGen二維游戲、Crafter基準測試中均表現出色,并在NetHack NeurIPS 2021挑戰賽中獲得第三名,且未使用任何領域特定知識。
研究還發現,環境復雜性與多樣性對RL規則的泛化能力具有關鍵影響。基于Atari、ProcGen和DMLab-30三個基準(共103個環境)發現的Disco103規則,在Crafter基準上達到人類水平表現,并在Sokoban任務中接近MuZero的最先進性能。這表明,參與訓練的環境越復雜多樣,所發現的RL規則越強大,即使面對未見過的環境也能保持高效。
在效率與穩定性方面,DiscoRL同樣表現突出。最優版本的Disco57規則在每個Atari游戲約6億步內被發現,相當于在57個游戲中進行3輪實驗,遠低于傳統人工設計算法所需的實驗次數和人力投入。隨著訓練環境數量增加,DiscoRL在未見過的ProcGen基準上的性能持續提升,顯示出強大的擴展性。
DeepMind團隊指出,未來高級AI的RL算法設計可能由機器主導,通過高效擴展數據與計算能力實現自動化,無需人類干預。這一突破雖為學術領域帶來新潛力,但也引發了對技術社會影響的擔憂——當前社會尚未完全準備好應對此類技術的廣泛應用。



















