巨人財經 - 專業科技行業財經媒體

京東開源240億參數JoyAI-Image-Edit,圖像編輯邁入空間智能新紀元

   發布時間:2026-04-12 15:02 作者:周偉

當多數圖像生成工具還在平面修圖的層面徘徊時,京東推出的開源模型JoyAI-Image-Edit已將技術推向空間智能的新維度。這款模型突破了傳統AI對空間關系的模糊處理,能夠精準理解三維場景中的物體位置、遮擋關系和光影邏輯,為圖像編輯領域帶來革命性變革。

傳統圖像AI在處理空間任務時常出現透視錯亂、物體漂浮等低級錯誤。例如調整家具位置時,沙發可能脫離地面;改變拍攝角度時,墻壁會出現扭曲變形。這些缺陷源于模型缺乏對真實三維世界的理解,僅能機械組合像素而無法把握空間邏輯。京東研發團隊通過將空間智能融入模型底層架構,使系統能夠像人類一樣感知場景深度和物體關系。

該模型采用創新性的雙模態耦合設計,將80億參數的多模態語言模型與160億參數的擴散Transformer深度整合。這種架構使空間指令解析與圖像生成形成閉環——當用戶要求"將相機右移30度"時,系統不僅調整視角,還會自動修正新視角下的遮擋關系和光影變化。測試數據顯示,在復雜場景的視角轉換任務中,其生成的圖像空間一致性比同類模型提升47%。

在電商領域,這項技術展現出巨大應用價值。品牌商可通過單一產品圖自動生成數十種展示視角,無需重新拍攝或人工修圖。某家居品牌實測顯示,使用該模型后新品上架效率提升3倍,視覺素材成本降低65%。模型支持物體旋轉、相機移動等15類編輯操作,能精準控制每個物體的空間位置,甚至可生成符合物理規律的動態序列。

具身智能領域成為另一個重要應用場景。在機器人訓練中,系統可根據自然語言指令生成海量合成數據。當要求"機器人左手舉起"時,模型不僅調整機械臂姿態,還會保持背景環境合理性,生成符合物理規則的動作序列。這種數據生成能力有效解決了機器人訓練的數據瓶頸問題,為實體智能設備落地提供關鍵支持。

技術實現層面,研發團隊構建了包含空間理解數據、長文本渲染數據和編輯數據的多階段訓練體系。通過可擴展的數據流水線,模型同時具備空間推理和通用編輯能力。在橫向評測中,其相機控制精度比主流模型提高32%,物體空間關系處理準確率達91%,特別在復雜場景的透視保持方面表現突出。

京東選擇Apache 2.0協議開源該模型,提供完整的推理代碼和模型權重。開發者可在GitHub、Hugging Face等平臺獲取資源,并基于Diffusers格式進行二次開發。這種開放策略使中小團隊也能利用先進的空間智能技術,推動整個行業的技術普惠。目前已有超過200家企業申請商用授權,涵蓋電商、設計、機器人等多個領域。

在AI技術競爭日益激烈的背景下,京東的差異化路線引人注目。不同于追求參數規模的軍備競賽,該公司將技術扎根于零售、物流等實體場景,通過解決真實產業問題實現價值創造。從基礎大模型到數字人,再到具身智能數據中心,其技術布局始終圍繞供應鏈優化展開。這種務實策略或許預示著AI發展的新方向——讓技術回歸服務實體經濟的本質。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新