小紅書聯合復旦推出InstanceAssemble：AI繪畫精準構圖新突破

發布時間：2025-12-26 18:03 來源：快訊作者：胡穎

AI繪畫領域迎來一項重要技術突破——小紅書與復旦大學聯合研發的InstanceAssemble方案，成功攻克了布局控制生成（Layout-to-Image）的核心難題。該技術通過創新設計的“實例組裝注意力”機制，實現了從簡單物體到復雜場景的精準圖像生成，相關研究成果已被國際頂級學術會議NeurIPS 2025收錄。

布局控制生成技術是AI繪畫發展的關鍵方向，其核心挑戰在于如何讓模型嚴格遵循用戶指定的空間布局約束。傳統方法常面臨三大困境：物體位置偏移、語義內容脫節以及計算資源消耗過大。例如在生成包含多個物體的場景時，AI可能將本應出現在左側的汽車畫到右側，或將描述為“金毛犬”的物體生成其他品種。

新發布的InstanceAssemble技術基于擴散變換器架構，創造性地引入“實例拼裝注意力”模塊。用戶只需提供每個物體的邊界框坐標和文字描述，系統就能在對應位置生成符合語義的圖像內容。實驗數據顯示，該技術在處理包含90萬個實例的密集布局數據集時，布局對齊精度較現有方法提升42%，語義一致性指標提高37%。

技術團隊特別設計了輕量化適配方案，僅需調整約7100萬個參數（相當于在Stable Diffusion3-Medium模型上增加3.46%的參數量），即可實現高效遷移學習。當適配Flux.1模型時，額外參數需求更降至0.84%，顯著降低了技術落地門檻。這種設計使得中小型研發團隊也能快速應用前沿生成技術。

為建立科學的評估體系，研究團隊構建了包含5000張高分辨率圖像和9萬個標注實例的“Denselayout”基準測試集，并提出“布局錨定分數”（LGS）評估指標。該指標通過計算生成圖像中物體位置與輸入布局的匹配程度，以及語義描述的準確度，為行業提供了量化評估標準。測試表明，即使訓練數據僅包含稀疏布局（≤10個實例），InstanceAssemble在密集場景（≥10個實例）中仍能保持穩定性能。

這項突破標志著AI繪畫技術從“自由創作”邁向“精準構圖”的新階段。在電商產品展示、建筑效果圖生成、游戲場景設計等應用場景中，設計師可通過精確控制物體位置和屬性，大幅提升創作效率。目前研究團隊正在探索將技術擴展至視頻生成領域，未來可能實現動態場景的精準控制。

更多>同類內容