
在人工智能生成内容(AIGC)从自由创作迈向精准控制的转型关键期,小红书AIGC团队今日正式开源其突破性布局可控图像生成框架——InstanceAssemble。这一专为高密度、多对象、复杂空间关系设计的Layout-to-Image任务而生的框架,在仅增加0.84%极低参数增量的同时,实现了生成图像空间对齐精度与语义一致性的显著提升,为电商、设计、游戏等高要求场景提供了强大的工业级解决方案。
级联建模 + Assemble-Attention,攻克“多物堆叠”技术难题
传统Layout-to-Image模型在处理“10个商品图标+文字标签+背景图层”等复杂布局时,常面临对象错位、重叠或语义错配的挑战。InstanceAssemble创新性地采用级联双阶段架构,有效破解了这一难题:首先,通过语义理解阶段精准解析文本描述与布局指令的语义关联;其次,借助自研的Assemble-Attention机制,在空间组装阶段动态建模实例间的相对位置、遮挡关系与层次结构,确保每个元素都能“精准落位”。实验数据显示,在密集商品展示、多角色插画、UI界面生成等场景中,InstanceAssemble的对象定位准确率与边缘清晰度均显著超越现有方法。

极轻量适配,无缝兼容主流底模
为降低部署门槛,InstanceAssemble框架特别采用了超轻量LoRA适配器设计:适配Stable Diffusion3-Medium仅需3.46%额外参数,而适配Flux.1模型更是低至惊人的0.84%。这一创新意味着用户无需重新训练庞大的大模型,即可在保留底模强大生成能力的基础上,灵活注入布局控制能力,完美支持文本+参考图+边界框的多模态指令输入。
自建DenseLayout基准,引领评估标准化进程
为精准衡量布局对齐质量,小红书同步发布了DenseLayout评测数据集与LGS(Layout Grounding Score)可解释指标。LGS从位置精度、尺度匹配、语义一致性三个维度量化生成效果,有效解决了传统指标(如IoU)在密集场景下失真的问题,为行业提供了更科学的评估标准。
AIbase权威评论认为,InstanceAssemble的发布标志着AIGC正从“画得像”迈向“摆得准”的新阶段。当AI不仅能生成精美图像,还能严格遵循设计师的精确布局指令“精准摆放”每个元素时,AIGC才真正具备嵌入专业生产流程的能力。小红书此次开源不仅赋能社区创作者,更将有力推动整个行业向可控、可靠、可商用的生成式AI迈进。

论文链接:https://arxiv.org/abs/2509.16691
项目主页:https://github.com/FireRedTeam/InstanceAssemble
