英偉達DreamZero模型突破：跨具身遷移實現，機器人通用智能迎來新篇章

發布時間：2026-02-09 15:10 來源：快訊作者：陸辰風

在具身智能領域，實現通用復雜任務的核心在于構建完善的世界模型，但當前大多數世界模型存在明顯短板——它們往往在特定硬件平臺上訓練，缺乏跨具身遷移能力。這種局限性導致機器人學到的更多是“特定設備如何運動”，而非“物理世界如何運作”。為突破這一瓶頸，英偉達GEAR實驗室提出名為DreamZero的創新方案，通過構建基于視頻擴散模型的“世界動作模型”（WAM），為機器人領域帶來突破性進展。

DreamZero采用140億參數的自回歸視頻擴散架構，通過聯合預測未來視頻幀與機器人動作，實現對物理規律的深度建模。與傳統視覺-語言-動作（VLA）模型不同，該方案直接以視頻作為世界狀態的稠密表示，無需依賴重復示范即可從異構數據中學習多樣化技能。實驗室負責人Jim Fan將其類比為機器人領域的“GPT-2時刻”——研究人員僅需輸入文本指令，機器人即可執行從未見過的任務，相關代碼已在GitHub開源。

實驗數據顯示，在真實機器人場景中，DreamZero的泛化能力較現有最先進VLA模型提升超2倍。面對完全未出現的任務（如解鞋帶、握手），其仍能達成39.5%的任務完成度，而傳統模型因過度擬合“抓取-放置”等主導訓練行為，在新任務上表現乏力。研究團隊通過6種測試場景驗證模型能力：在AgiBot預訓練中，模型在未見對象的新環境中取得62.2%的平均進度；在異構數據集DROID上，面對未出現動詞的任務仍保持49%的完成度；經過任務特定微調后，模型在疊襯衫、裝水果等場景中仍保持跨環境泛化能力。

跨具身遷移是該模型的核心突破。實驗表明，僅需10-20分鐘的人類或機器人視頻示范，DreamZero即可在全新任務上提升超42%性能；更驚人的是，通過30分鐘“玩耍數據”（55條軌跡）即可適配全新機器人，同時保持零樣本泛化能力。這種效率較傳統需要數百小時示范的方法提升數十倍，且無需針對新機器人進行大規模重訓。在交互式提示測試中，機器人能根據人類自然語言指令，在開放場景中完成扇漢堡、按電梯按鈕等復雜操作。

為解決視頻擴散模型實時控制難題，研究團隊通過三項關鍵優化實現突破：采用基于Flow Matching的自回歸DiT主干網絡，實現視頻幀與動作的緊密耦合；設計異步推理機制，將真實觀測反饋至KV緩存以防止誤差累積；開發動作塊平滑技術，在16/4/1個擴散步數下均能保持性能，最終實現150ms/動作塊的7Hz閉環控制。這種設計使高維潛空間中的多步去噪過程得以高效執行，為視頻模型在實時控制場景的應用開辟道路。

該研究證明，通過視頻與動作的聯合建模，機器人可繼承關于物理規律的先驗知識，從而擺脫對特定設備的依賴。從非重復數據中高效學習、在開放場景中強泛化、僅依賴視頻完成跨具身遷移、對新機器人快速適配——這四大能力標志著具身智能向通用化邁出關鍵一步。隨著模型在更多復雜場景中的壓力測試，基于視頻世界模型的新一代機器人基礎框架正展現出巨大潛力。

更多>同類內容