螞蟻集團旗下具身智能公司靈波科技近日宣布開源高精度空間感知模型LingBot-Depth,標志著三維視覺技術領域迎來突破性進展。該模型基于奧比中光Gemini 330系列雙目3D相機的原始數據開發,通過融合光學傳感與深度學習技術,顯著提升了智能終端在復雜環境中的三維空間理解能力,為機器人、自動駕駛等領域提供更精準的視覺解決方案。
在權威基準測試中,LingBot-Depth展現出顯著優勢。NYUv2室內場景測試顯示,其相對誤差(REL)較主流模型PromptDA與PriorDA降低超70%;ETH3D稀疏SfM任務中,RMSE誤差減少約47%,刷新行業精度紀錄。這一成果源于靈波科技研發的"掩碼深度建模"(MDM)技術,該技術通過整合RGB圖像的紋理、輪廓及環境上下文信息,可智能補全透明玻璃、反光鏡面等材質導致的深度數據缺失,輸出邊緣清晰的三維深度圖。
實驗數據顯示,搭載LingBot-Depth的奧比中光Gemini 330系列相機,在強逆光、復雜曲面等極端光學場景下,深度圖完整性較業界領先的ZED Stereo Depth相機提升顯著。其輸出的三維圖像不僅平滑無噪點,物體輪廓邊緣銳利度更達到消費級設備新高度。這意味著現有硬件無需升級,即可通過軟件優化實現對高反光、透明物體的精準感知。
支撐模型性能的核心是靈波科技構建的千萬級真實場景數據庫。研發團隊采集近1000萬份原始樣本,篩選出200萬組高價值深度配對數據用于訓練,同時整合100萬組仿真數據增強模型泛化能力。這套包含200萬真實世界深度數據和100萬仿真數據的核心資產將隨模型同步開源,為全球開發者攻克復雜場景空間感知難題提供關鍵資源。
據透露,奧比中光已與靈波科技達成戰略合作,計劃基于LingBot-Depth技術推出新一代深度相機產品。本周內,靈波科技還將陸續開源多款具身智能領域的基礎模型,持續推動三維視覺技術的開源生態建設。




















