高德具身智能新突破：全球15項SOTA領跑，AGI時代機器人操作系統(tǒng)來了

發(fā)布時間：2026-04-19 18:09 來源：快訊作者：趙靜

導航巨頭高德，竟在具身智能領域掀起了一場風暴。當人們還在疑惑一個國民級導航應用為何與機器人、機器狗產(chǎn)生關聯(lián)時，高德已帶著首個面向AGI的全棧具身技術體系ABot驚艷亮相，且成績斐然，躋身全球第一梯隊。

在大多數(shù)行業(yè)玩家還在專注于單點突破時，高德率先實現(xiàn)了數(shù)據(jù)、模型、Agent從下到上的全面打通。其世界模型在國際挑戰(zhàn)賽中表現(xiàn)卓越，分數(shù)超越谷歌、英偉達，ABot體系更是橫掃具身智能全球15項SOTA。這一成績引發(fā)了眾人的好奇：一個做導航的，究竟憑什么能在具身智能賽道脫穎而出？

深入探究發(fā)現(xiàn)，高德的成功并非僅僅依賴“數(shù)據(jù)多”。在其ABot全棧具身技術體系中，最底層雖是數(shù)據(jù)，但高德構建了一個“物理優(yōu)先、動作可控、閉環(huán)進化”的機器人世界操作系統(tǒng)，實現(xiàn)了從“視覺渲染范式”向“可微分物理引擎范式”的根本性轉(zhuǎn)變。當其他模型還在生成看似真實的視頻時，高德的ABot - World已能輸出符合物理規(guī)律的動態(tài)變化過程，不僅能說明“發(fā)生了什么”，還能解釋“為什么發(fā)生”以及“如果這樣做會發(fā)生什么”，這也是它成為全球唯一三項指標（物理合規(guī)性/動作可控性/零樣本泛化）全面SOTA的關鍵原因。

面對“如何讓機器人理解真實物理世界”這一難題，高德沒有選擇傳統(tǒng)的“采集→標注→訓練”路徑，而是另辟蹊徑，選擇“重建物理世界”。傳統(tǒng)方法成本高、效率低、覆蓋窄，而高德推出的可交互世界模型ABot - World，旨在構建一個可交互、可推演、可進化的機器人世界操作系統(tǒng)。它與數(shù)據(jù)合成、數(shù)據(jù)仿真看似思路相似，實則底層邏輯不同。合成仿真類似“照貓畫虎”，追求模擬盡可能逼近真實；而高德基于現(xiàn)成的真實世界數(shù)據(jù)，將場景還原后供機器人使用，精準度更高。畢竟，高德在精密重建與理解物理世界方面本就具備優(yōu)勢，每天處理大量來自衛(wèi)星、街景車、眾包設備的數(shù)據(jù)，將其轉(zhuǎn)化為數(shù)字世界。

ABot - World采用雙引擎驅(qū)動架構，即ABot - 3DGS和ABot - PhysWorld。ABot - 3DGS作為物理世界的“數(shù)字孿生工廠”，以高德積累的厘米級城市、道路、室內(nèi)空間數(shù)據(jù)及真實軌跡數(shù)據(jù)為基礎，結合前沿的3DGS技術，構建可編程的數(shù)字孿生空間。在這里，數(shù)據(jù)不受采集條件限制，任意視角、光照、遮擋狀態(tài)均可生成，機器人形態(tài)也能靈活切換。更重要的是，它能系統(tǒng)性補齊長尾交互場景，通過大規(guī)模組合與仿真，提前構造極端情況和突發(fā)干擾，將覆蓋率提升至99%。而且，這里的“空間”帶有物理屬性，每個物體都被賦予質(zhì)量、摩擦系數(shù)等參數(shù)，構成可計算、可干預的物理環(huán)境。例如，調(diào)整物體質(zhì)量或地面摩擦系數(shù)，機器人抓取時的力度和軌跡會相應改變。ABot - 3DGS不再是簡單的數(shù)據(jù)增強工具，而是主動創(chuàng)造了一個比現(xiàn)實更豐富、更可控、更物理一致的“訓練宇宙”。

高德積累的真實時空數(shù)據(jù)轉(zhuǎn)化為“機器人能用的訓練材料”，經(jīng)歷了“一翻譯二重建三Run”的過程。“一翻譯”是將數(shù)據(jù)轉(zhuǎn)成機器能讀懂的“多模態(tài)Clip”，如騎車經(jīng)過路口時，高德記錄的不僅是圖像，還包括路口的空間位置、紅綠燈狀態(tài)、行為以及周圍環(huán)境等信息，打包成千萬級的Clip。“二重建”是ABot - 3DGS將路口、街道、商場等地方重建為萬級規(guī)模的3D真實場景，這些場景因自帶物理規(guī)則和空間邏輯而“活”起來。“三Run”是將機器人放入場景中，批量生成千萬級訓練軌跡數(shù)據(jù)。

解決“懂物理”這一行業(yè)難題，則依靠ABot - PhysWorld。它基于14B參數(shù)的DiT主干構建，是物理思維引擎，回答機器人“如果我這樣動，接下來會發(fā)生什么”的核心問題。在數(shù)據(jù)層面，高德精選300萬條真實操作視頻，用VLM + LLM雙階段標注，構建四層級物理語義結構（意圖→動作→軌跡→物理關系），為因果推理奠定基礎。訓練層面，摒棄傳統(tǒng)MLE（像素相似度優(yōu)化），引入“物理判別機制”，通過Proposer module和Scorer module將優(yōu)化目標從“像素相似度”轉(zhuǎn)向“物理一致性”，用Diffusion - DPO強化合規(guī)行為。輸出層面，ABot - PhysWorld的每一幀不僅是像素，更是包含質(zhì)量、接觸力場、慣性張量的可微分物理狀態(tài)快照，支持“動作條件化推演”與“零樣本泛化”。

將兩個引擎結合，ABot - World內(nèi)部形成了持續(xù)增強的“數(shù)據(jù) - 模型”飛輪。ABot - 3DGS不斷生成高質(zhì)量訓練材料，ABot - PhysWorld不斷提升對真實世界的理解。而且，ABot - World具備自我修正能力，支持完整的VLA閉環(huán)（預測→執(zhí)行→反饋→自我修正）。例如，機器人根據(jù)推演抓杯子失敗，誤差信號會回傳給ABot - PhysWorld，模型自動調(diào)整參數(shù)，下次預測更精準。這種“自生長、自修正、自適應”的能力，讓機器人能在真實環(huán)境中持續(xù)進化。

高德能跑到具身賽道前列，并非偶然。這是從給“人”導航到給“機器人”構建物理世界操作系統(tǒng)的升維。高德的護城河不僅是“數(shù)據(jù)多”，還有地圖時代積累的空間理解、地圖構建、實時更新能力，尤其是業(yè)界領先的POI（興趣點）數(shù)據(jù)庫和路網(wǎng)語義信息。高德提供的數(shù)據(jù)帶“語義”，如“這里是星巴克的入口”“前方是人行橫道”等，而行業(yè)里大多數(shù)機器人的導航訓練僅用幾何坐標和視覺特征。帶語義的數(shù)據(jù)讓機器人理解“規(guī)則”和“常識”，更容易應用到真實世界中。在北京亦莊機器人半馬活動中，高德的四足機器狗已能幫助盲人朋友精準導航。

如今，高德決定將ABot - World開源，為開發(fā)者提供統(tǒng)一的、物理合規(guī)的、可進化的機器人世界模型操作系統(tǒng)。這一舉措將緩解行業(yè)數(shù)據(jù)不夠、仿真不夠真的問題，推動生態(tài)圍繞這一底座快速收斂并加速爆發(fā)。高德一邊鋪好底座，一邊帶動生態(tài)發(fā)展，在具身賽道占據(jù)了核心位置。

更多>同類內(nèi)容