巨人財經 - 專業科技行業財經媒體

英偉達DreamZero模型突破:跨具身遷移實現,機器人通用智能迎來新篇章

   發布時間:2026-02-09 15:10 作者:陸辰風

在具身智能領域,實現通用復雜任務的核心在于構建完善的世界模型,但當前大多數世界模型存在明顯短板——它們往往在特定硬件平臺上訓練,缺乏跨具身遷移能力。這種局限性導致機器人學到的更多是“特定設備如何運動”,而非“物理世界如何運作”。為突破這一瓶頸,英偉達GEAR實驗室提出名為DreamZero的創新方案,通過構建基于視頻擴散模型的“世界動作模型”(WAM),為機器人領域帶來突破性進展。

DreamZero采用140億參數的自回歸視頻擴散架構,通過聯合預測未來視頻幀與機器人動作,實現對物理規律的深度建模。與傳統視覺-語言-動作(VLA)模型不同,該方案直接以視頻作為世界狀態的稠密表示,無需依賴重復示范即可從異構數據中學習多樣化技能。實驗室負責人Jim Fan將其類比為機器人領域的“GPT-2時刻”——研究人員僅需輸入文本指令,機器人即可執行從未見過的任務,相關代碼已在GitHub開源。

實驗數據顯示,在真實機器人場景中,DreamZero的泛化能力較現有最先進VLA模型提升超2倍。面對完全未出現的任務(如解鞋帶、握手),其仍能達成39.5%的任務完成度,而傳統模型因過度擬合“抓取-放置”等主導訓練行為,在新任務上表現乏力。研究團隊通過6種測試場景驗證模型能力:在AgiBot預訓練中,模型在未見對象的新環境中取得62.2%的平均進度;在異構數據集DROID上,面對未出現動詞的任務仍保持49%的完成度;經過任務特定微調后,模型在疊襯衫、裝水果等場景中仍保持跨環境泛化能力。

跨具身遷移是該模型的核心突破。實驗表明,僅需10-20分鐘的人類或機器人視頻示范,DreamZero即可在全新任務上提升超42%性能;更驚人的是,通過30分鐘“玩耍數據”(55條軌跡)即可適配全新機器人,同時保持零樣本泛化能力。這種效率較傳統需要數百小時示范的方法提升數十倍,且無需針對新機器人進行大規模重訓。在交互式提示測試中,機器人能根據人類自然語言指令,在開放場景中完成扇漢堡、按電梯按鈕等復雜操作。

為解決視頻擴散模型實時控制難題,研究團隊通過三項關鍵優化實現突破:采用基于Flow Matching的自回歸DiT主干網絡,實現視頻幀與動作的緊密耦合;設計異步推理機制,將真實觀測反饋至KV緩存以防止誤差累積;開發動作塊平滑技術,在16/4/1個擴散步數下均能保持性能,最終實現150ms/動作塊的7Hz閉環控制。這種設計使高維潛空間中的多步去噪過程得以高效執行,為視頻模型在實時控制場景的應用開辟道路。

該研究證明,通過視頻與動作的聯合建模,機器人可繼承關于物理規律的先驗知識,從而擺脫對特定設備的依賴。從非重復數據中高效學習、在開放場景中強泛化、僅依賴視頻完成跨具身遷移、對新機器人快速適配——這四大能力標志著具身智能向通用化邁出關鍵一步。隨著模型在更多復雜場景中的壓力測試,基于視頻世界模型的新一代機器人基礎框架正展現出巨大潛力。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新