在AI圖像編輯領域,傳統模型長期面臨空間邏輯混亂的瓶頸:移動物體時出現幾何變形、視角切換時場景結構斷裂、調整物體層次時遮擋關系錯亂。京東探索研究院近日推出的開源模型JoyAI-Image-Edit,通過構建三維空間理解體系,實現了從平面修圖到空間重塑的技術躍遷。該模型首次將空間智能深度融入圖像生成流程,在物體位移精度、多視角一致性等核心指標上達到國際領先水平。
研發團隊突破性構建了空間理解數據與任務體系,涵蓋空間位置建模、相機參數感知、場景幾何推理等八大維度。通過創新的空間坐標變換算法,模型可精準控制物體在三維場景中的位移、旋轉和縮放,同時自動維護光影一致性、遮擋合理性等物理規律。實驗數據顯示,在物體移動任務中,該模型的空間變形率較傳統方法降低82%,多視角圖像序列的幾何誤差控制在3%以內。
該模型三大核心能力重新定義了AI圖像編輯范式:視角變換功能支持通過自然語言指令調整相機參數,在保持場景結構完整的前提下生成新視角圖像;空間漫游技術可連續生成邏輯連貫的多視角序列,實現虛擬場景中的"自由行走";物體關系操控允許用戶精準調整特定物體的空間屬性,系統自動優化周邊元素的遮擋與光影關系。這些能力與15類通用編輯功能深度融合,形成覆蓋內容創作全流程的解決方案。
在電商領域,該模型可自動生成多角度商品展示圖,將傳統3D建模周期從72小時壓縮至8分鐘;在創意設計場景,設計師通過文本指令即可完成復雜場景的空間重組,創作效率提升5倍以上。特別在具身智能領域,模型提供的空間感知能力為機器人環境理解提供了關鍵技術支撐,相關應用已在倉儲物流機器人中開展測試。
此次開源包含完整的模型架構、訓練代碼和推理引擎,開發者可基于現有框架快速構建空間感知類應用。配套發布的空間編輯工具包已集成至京東云平臺,支持一鍵部署和二次開發。與同期開源的JoyAI-LLM Flash大模型形成技術協同,京東正在構建覆蓋文本、圖像、3D空間的多模態AI技術矩陣。
在產業應用層面,京東云"龍蝦"系列產品憑借該模型的空間處理能力,實現智能圖像處理服務的周調用量增長455%。正在建設的全球最大具身數據采集中心,將通過該模型生成海量標準化空間數據,加速機器人視覺系統的訓練優化。這些布局彰顯了京東以空間智能為突破口,推動AI技術深度融入實體經濟的戰略決心。





















