AI繪畫領域迎來一項重要技術突破——小紅書與復旦大學聯合研發的InstanceAssemble方案,成功攻克了布局控制生成(Layout-to-Image)的核心難題。該技術通過創新設計的“實例組裝注意力”機制,實現了從簡單物體到復雜場景的精準圖像生成,相關研究成果已被國際頂級學術會議NeurIPS 2025收錄。
布局控制生成技術是AI繪畫發展的關鍵方向,其核心挑戰在于如何讓模型嚴格遵循用戶指定的空間布局約束。傳統方法常面臨三大困境:物體位置偏移、語義內容脫節以及計算資源消耗過大。例如在生成包含多個物體的場景時,AI可能將本應出現在左側的汽車畫到右側,或將描述為“金毛犬”的物體生成其他品種。
新發布的InstanceAssemble技術基于擴散變換器架構,創造性地引入“實例拼裝注意力”模塊。用戶只需提供每個物體的邊界框坐標和文字描述,系統就能在對應位置生成符合語義的圖像內容。實驗數據顯示,該技術在處理包含90萬個實例的密集布局數據集時,布局對齊精度較現有方法提升42%,語義一致性指標提高37%。
技術團隊特別設計了輕量化適配方案,僅需調整約7100萬個參數(相當于在Stable Diffusion3-Medium模型上增加3.46%的參數量),即可實現高效遷移學習。當適配Flux.1模型時,額外參數需求更降至0.84%,顯著降低了技術落地門檻。這種設計使得中小型研發團隊也能快速應用前沿生成技術。
為建立科學的評估體系,研究團隊構建了包含5000張高分辨率圖像和9萬個標注實例的“Denselayout”基準測試集,并提出“布局錨定分數”(LGS)評估指標。該指標通過計算生成圖像中物體位置與輸入布局的匹配程度,以及語義描述的準確度,為行業提供了量化評估標準。測試表明,即使訓練數據僅包含稀疏布局(≤10個實例),InstanceAssemble在密集場景(≥10個實例)中仍能保持穩定性能。
這項突破標志著AI繪畫技術從“自由創作”邁向“精準構圖”的新階段。在電商產品展示、建筑效果圖生成、游戲場景設計等應用場景中,設計師可通過精確控制物體位置和屬性,大幅提升創作效率。目前研究團隊正在探索將技術擴展至視頻生成領域,未來可能實現動態場景的精準控制。





















