導航巨頭高德,竟在具身智能領域掀起了一場風暴。當人們還在疑惑一個國民級導航應用為何與機器人、機器狗產(chǎn)生關聯(lián)時,高德已帶著首個面向AGI的全棧具身技術體系ABot驚艷亮相,且成績斐然,躋身全球第一梯隊。
在大多數(shù)行業(yè)玩家還在專注于單點突破時,高德率先實現(xiàn)了數(shù)據(jù)、模型、Agent從下到上的全面打通。其世界模型在國際挑戰(zhàn)賽中表現(xiàn)卓越,分數(shù)超越谷歌、英偉達,ABot體系更是橫掃具身智能全球15項SOTA。這一成績引發(fā)了眾人的好奇:一個做導航的,究竟憑什么能在具身智能賽道脫穎而出?
深入探究發(fā)現(xiàn),高德的成功并非僅僅依賴“數(shù)據(jù)多”。在其ABot全棧具身技術體系中,最底層雖是數(shù)據(jù),但高德構建了一個“物理優(yōu)先、動作可控、閉環(huán)進化”的機器人世界操作系統(tǒng),實現(xiàn)了從“視覺渲染范式”向“可微分物理引擎范式”的根本性轉(zhuǎn)變。當其他模型還在生成看似真實的視頻時,高德的ABot - World已能輸出符合物理規(guī)律的動態(tài)變化過程,不僅能說明“發(fā)生了什么”,還能解釋“為什么發(fā)生”以及“如果這樣做會發(fā)生什么”,這也是它成為全球唯一三項指標(物理合規(guī)性/動作可控性/零樣本泛化)全面SOTA的關鍵原因。
面對“如何讓機器人理解真實物理世界”這一難題,高德沒有選擇傳統(tǒng)的“采集→標注→訓練”路徑,而是另辟蹊徑,選擇“重建物理世界”。傳統(tǒng)方法成本高、效率低、覆蓋窄,而高德推出的可交互世界模型ABot - World,旨在構建一個可交互、可推演、可進化的機器人世界操作系統(tǒng)。它與數(shù)據(jù)合成、數(shù)據(jù)仿真看似思路相似,實則底層邏輯不同。合成仿真類似“照貓畫虎”,追求模擬盡可能逼近真實;而高德基于現(xiàn)成的真實世界數(shù)據(jù),將場景還原后供機器人使用,精準度更高。畢竟,高德在精密重建與理解物理世界方面本就具備優(yōu)勢,每天處理大量來自衛(wèi)星、街景車、眾包設備的數(shù)據(jù),將其轉(zhuǎn)化為數(shù)字世界。
ABot - World采用雙引擎驅(qū)動架構,即ABot - 3DGS和ABot - PhysWorld。ABot - 3DGS作為物理世界的“數(shù)字孿生工廠”,以高德積累的厘米級城市、道路、室內(nèi)空間數(shù)據(jù)及真實軌跡數(shù)據(jù)為基礎,結合前沿的3DGS技術,構建可編程的數(shù)字孿生空間。在這里,數(shù)據(jù)不受采集條件限制,任意視角、光照、遮擋狀態(tài)均可生成,機器人形態(tài)也能靈活切換。更重要的是,它能系統(tǒng)性補齊長尾交互場景,通過大規(guī)模組合與仿真,提前構造極端情況和突發(fā)干擾,將覆蓋率提升至99%。而且,這里的“空間”帶有物理屬性,每個物體都被賦予質(zhì)量、摩擦系數(shù)等參數(shù),構成可計算、可干預的物理環(huán)境。例如,調(diào)整物體質(zhì)量或地面摩擦系數(shù),機器人抓取時的力度和軌跡會相應改變。ABot - 3DGS不再是簡單的數(shù)據(jù)增強工具,而是主動創(chuàng)造了一個比現(xiàn)實更豐富、更可控、更物理一致的“訓練宇宙”。
高德積累的真實時空數(shù)據(jù)轉(zhuǎn)化為“機器人能用的訓練材料”,經(jīng)歷了“一翻譯二重建三Run”的過程。“一翻譯”是將數(shù)據(jù)轉(zhuǎn)成機器能讀懂的“多模態(tài)Clip”,如騎車經(jīng)過路口時,高德記錄的不僅是圖像,還包括路口的空間位置、紅綠燈狀態(tài)、行為以及周圍環(huán)境等信息,打包成千萬級的Clip。“二重建”是ABot - 3DGS將路口、街道、商場等地方重建為萬級規(guī)模的3D真實場景,這些場景因自帶物理規(guī)則和空間邏輯而“活”起來。“三Run”是將機器人放入場景中,批量生成千萬級訓練軌跡數(shù)據(jù)。
解決“懂物理”這一行業(yè)難題,則依靠ABot - PhysWorld。它基于14B參數(shù)的DiT主干構建,是物理思維引擎,回答機器人“如果我這樣動,接下來會發(fā)生什么”的核心問題。在數(shù)據(jù)層面,高德精選300萬條真實操作視頻,用VLM + LLM雙階段標注,構建四層級物理語義結構(意圖→動作→軌跡→物理關系),為因果推理奠定基礎。訓練層面,摒棄傳統(tǒng)MLE(像素相似度優(yōu)化),引入“物理判別機制”,通過Proposer module和Scorer module將優(yōu)化目標從“像素相似度”轉(zhuǎn)向“物理一致性”,用Diffusion - DPO強化合規(guī)行為。輸出層面,ABot - PhysWorld的每一幀不僅是像素,更是包含質(zhì)量、接觸力場、慣性張量的可微分物理狀態(tài)快照,支持“動作條件化推演”與“零樣本泛化”。
將兩個引擎結合,ABot - World內(nèi)部形成了持續(xù)增強的“數(shù)據(jù) - 模型”飛輪。ABot - 3DGS不斷生成高質(zhì)量訓練材料,ABot - PhysWorld不斷提升對真實世界的理解。而且,ABot - World具備自我修正能力,支持完整的VLA閉環(huán)(預測→執(zhí)行→反饋→自我修正)。例如,機器人根據(jù)推演抓杯子失敗,誤差信號會回傳給ABot - PhysWorld,模型自動調(diào)整參數(shù),下次預測更精準。這種“自生長、自修正、自適應”的能力,讓機器人能在真實環(huán)境中持續(xù)進化。
高德能跑到具身賽道前列,并非偶然。這是從給“人”導航到給“機器人”構建物理世界操作系統(tǒng)的升維。高德的護城河不僅是“數(shù)據(jù)多”,還有地圖時代積累的空間理解、地圖構建、實時更新能力,尤其是業(yè)界領先的POI(興趣點)數(shù)據(jù)庫和路網(wǎng)語義信息。高德提供的數(shù)據(jù)帶“語義”,如“這里是星巴克的入口”“前方是人行橫道”等,而行業(yè)里大多數(shù)機器人的導航訓練僅用幾何坐標和視覺特征。帶語義的數(shù)據(jù)讓機器人理解“規(guī)則”和“常識”,更容易應用到真實世界中。在北京亦莊機器人半馬活動中,高德的四足機器狗已能幫助盲人朋友精準導航。
如今,高德決定將ABot - World開源,為開發(fā)者提供統(tǒng)一的、物理合規(guī)的、可進化的機器人世界模型操作系統(tǒng)。這一舉措將緩解行業(yè)數(shù)據(jù)不夠、仿真不夠真的問題,推動生態(tài)圍繞這一底座快速收斂并加速爆發(fā)。高德一邊鋪好底座,一邊帶動生態(tài)發(fā)展,在具身賽道占據(jù)了核心位置。





















