小米機器人新突破：Xiaomi-Robotics-0發布，消費級顯卡暢跑真機

發布時間：2026-02-12 19:50 來源：快訊作者：陳陽

今日，小米在機器人領域拋出一枚重磅炸彈——小米機器人團隊正式發布并開源全新具身智能VLA模型Xiaomi-Robotics-0，其真機運行畫面首次對外公開，瞬間引發行業高度關注。

長久以來，機器人模型發展面臨諸多阻礙。一方面，傳統VLA模型雖參數規模可觀、泛化能力不錯，但在真實物理世界中，推理延遲高的問題極為突出，導致機器人動作斷斷續續，如同“延遲卡頓的木偶”，難以像人類一樣自然流暢地操作，被網友戲稱為“反應遲鈍的木頭人”。另一方面，具備高性能的模型往往依賴昂貴的專業顯卡才能運行，普通開發者和小團隊根本無力承擔，使得先進技術只能被困在實驗室，無法實現落地普及。不少模型還存在“仿真測試成績優異，一上真機就表現不佳”的尷尬狀況，無法穩定完成疊毛巾、拆積木等真實物理任務，理論與實操嚴重脫節。

此次小米推出的Xiaomi-Robotics-0模型，正是為解決這些行業難題而來。該模型擁有47億參數規模，兼具視覺語言理解與高性能實時執行能力。在Libero、Calvin、SimplerEnv三大全球主流具身智能測試集里，它對標超過30款主流模型，在所有基準測試中全部斬獲SOTA（State-of-the-Art，即當前公開可驗證的最先進、最高水平），真正實現了“仿真通、真機強、多模態能力不丟失”的重大突破。

Xiaomi-Robotics-0最具顛覆性的亮點在于，它能在普通消費級顯卡上實現實時推理，一舉打破了高端機器人模型“只能實驗室跑、普通人用不起”的困境，大幅降低了具身智能技術的落地門檻。這意味著普通開發者無需斥巨資購買專業顯卡，也能讓模型穩定運行，為更多人參與機器人技術研發提供了可能。

小米能夠實現這一突破，關鍵在于自研的Mixture-of-Transformers（MoT）混合架構。這一架構可看作是為機器人打造的“雙腦協同系統”，兼顧決策與執行效率。其中，視覺語言大腦（VLM）負責理解人類指令和感知環境，即使面對“把毛巾疊好”這類模糊指令，也能精準把握空間關系和任務目標，保留了多模態理解能力，這是此前許多VLA模型所不具備的優勢。動作執行小腦（DiT）則專注于將指令轉化為流暢動作，生成連續的“動作塊”，并通過流匹配技術確保動作精準穩定，讓機器人告別機械卡頓，動作靈活度接近人類，從根源上解決了傳統模型動作斷層的問題。

為了讓機器人既“聰明”又“能干”，小米團隊還設計了獨特的兩階段訓練方案。在第一階段，通過跨模態預訓練，讓模型在學習動作的同時，不丟失物體識別、視覺問答等基礎能力，避免出現“練了手工、廢了腦子”的情況。同時，利用Action Proposal機制使VLM的特征空間與動作空間對齊，為后續實操奠定基礎。在第二階段，通過后訓練優化，采用異步推理模式從機制上解決真機“動作斷層”問題，搭配Clean Action Prefix讓動作軌跡連續不抖動，借助Λ-shape Attention Mask讓機器人聚焦當前視覺反饋、擺脫歷史慣性，即使環境發生變化，也能即時調整，大幅提升環境適配能力。

從曝光的真機視頻中可以直觀看到，Xiaomi-Robotics-0模型在處理不同物體時表現出色。面對軟塌塌的毛巾，它會先鋪平，再對折、整理整齊，對于多余的毛巾還會主動放回原位；面對剛性積木，它能穩妥地一步步拆解，手眼協調極為穩定，不會出現卡頓或失誤。無論是軟質材料還是硬質物件，都能從容應對，充分展現了物理智能真正落地的成果。

值得一提的是，小米此次展現出了強大的格局，將Xiaomi-Robotics-0成果全量開源。技術主頁、GitHub開源代碼、Hugging Face模型權重全部公開，全球開發者都能免費使用、進行二次開發，相關資源可在各大平臺直接獲取。這一舉措徹底打破了大廠對具身智能核心技術的壟斷，讓原本高高在上的具身智能技術真正向行業敞開大門，普通開發者也能參與其中，加速整個行業的技術迭代。

雷軍在微博中透露，小米早已在機器人賽道深度布局，目前仍在全球招募頂尖人才，團隊還在持續沖刺下一代技術。此次發布的Xiaomi-Robotics-0只是階段性研究成果，未來或許還會有更多驚喜等待著我們。

更多>同類內容