京東開源240億參數JoyAI-Image-Edit，圖像編輯邁入空間智能新紀元

發布時間：2026-04-12 15:02 來源：快訊作者：周偉

當多數圖像生成工具還在平面修圖的層面徘徊時，京東推出的開源模型JoyAI-Image-Edit已將技術推向空間智能的新維度。這款模型突破了傳統AI對空間關系的模糊處理，能夠精準理解三維場景中的物體位置、遮擋關系和光影邏輯，為圖像編輯領域帶來革命性變革。

傳統圖像AI在處理空間任務時常出現透視錯亂、物體漂浮等低級錯誤。例如調整家具位置時，沙發可能脫離地面；改變拍攝角度時，墻壁會出現扭曲變形。這些缺陷源于模型缺乏對真實三維世界的理解，僅能機械組合像素而無法把握空間邏輯。京東研發團隊通過將空間智能融入模型底層架構，使系統能夠像人類一樣感知場景深度和物體關系。

該模型采用創新性的雙模態耦合設計，將80億參數的多模態語言模型與160億參數的擴散Transformer深度整合。這種架構使空間指令解析與圖像生成形成閉環——當用戶要求"將相機右移30度"時，系統不僅調整視角，還會自動修正新視角下的遮擋關系和光影變化。測試數據顯示，在復雜場景的視角轉換任務中，其生成的圖像空間一致性比同類模型提升47%。

在電商領域，這項技術展現出巨大應用價值。品牌商可通過單一產品圖自動生成數十種展示視角，無需重新拍攝或人工修圖。某家居品牌實測顯示，使用該模型后新品上架效率提升3倍，視覺素材成本降低65%。模型支持物體旋轉、相機移動等15類編輯操作，能精準控制每個物體的空間位置，甚至可生成符合物理規律的動態序列。

具身智能領域成為另一個重要應用場景。在機器人訓練中，系統可根據自然語言指令生成海量合成數據。當要求"機器人左手舉起"時，模型不僅調整機械臂姿態，還會保持背景環境合理性，生成符合物理規則的動作序列。這種數據生成能力有效解決了機器人訓練的數據瓶頸問題，為實體智能設備落地提供關鍵支持。

技術實現層面，研發團隊構建了包含空間理解數據、長文本渲染數據和編輯數據的多階段訓練體系。通過可擴展的數據流水線，模型同時具備空間推理和通用編輯能力。在橫向評測中，其相機控制精度比主流模型提高32%，物體空間關系處理準確率達91%，特別在復雜場景的透視保持方面表現突出。

京東選擇Apache 2.0協議開源該模型，提供完整的推理代碼和模型權重。開發者可在GitHub、Hugging Face等平臺獲取資源，并基于Diffusers格式進行二次開發。這種開放策略使中小團隊也能利用先進的空間智能技術，推動整個行業的技術普惠。目前已有超過200家企業申請商用授權，涵蓋電商、設計、機器人等多個領域。

在AI技術競爭日益激烈的背景下，京東的差異化路線引人注目。不同于追求參數規模的軍備競賽，該公司將技術扎根于零售、物流等實體場景，通過解決真實產業問題實現價值創造。從基礎大模型到數字人，再到具身智能數據中心，其技術布局始終圍繞供應鏈優化展開。這種務實策略或許預示著AI發展的新方向——讓技術回歸服務實體經濟的本質。

更多>同類內容