小红书开源InstanceAssemble布局可控生成框架突破多实例图像精度

在人工智能生成内容(AIGC)从自由创作迈向精准控制的转型关键期,小红书AIGC团队今日正式开源其突破性布局可控图像生成框架——InstanceAssemble。这一专为高密度、多对象、复杂空间关系设计的Layout-to-Image任务而生的框架,在仅增加0.84%极低参数增量的同时,实现了生成图像空间对齐精度与语义一致性的显著提升,为电商、设计、游戏等高要求场景提供了强大的工业级解决方案。

级联建模 + Assemble-Attention,攻克“多物堆叠”技术难题
传统Layout-to-Image模型在处理“10个商品图标+文字标签+背景图层”等复杂布局时,常面临对象错位、重叠或语义错配的挑战。InstanceAssemble创新性地采用级联双阶段架构,有效破解了这一难题:首先,通过语义理解阶段精准解析文本描述与布局指令的语义关联;其次,借助自研的Assemble-Attention机制,在空间组装阶段动态建模实例间的相对位置、遮挡关系与层次结构,确保每个元素都能“精准落位”。实验数据显示,在密集商品展示、多角色插画、UI界面生成等场景中,InstanceAssemble的对象定位准确率与边缘清晰度均显著超越现有方法。

小红书开源InstanceAssemble布局可控生成框架突破多实例图像精度插图1

极轻量适配,无缝兼容主流底模
为降低部署门槛,InstanceAssemble框架特别采用了超轻量LoRA适配器设计:适配Stable Diffusion3-Medium仅需3.46%额外参数,而适配Flux.1模型更是低至惊人的0.84%。这一创新意味着用户无需重新训练庞大的大模型,即可在保留底模强大生成能力的基础上,灵活注入布局控制能力,完美支持文本+参考图+边界框的多模态指令输入。

自建DenseLayout基准,引领评估标准化进程
为精准衡量布局对齐质量,小红书同步发布了DenseLayout评测数据集与LGS(Layout Grounding Score)可解释指标。LGS从位置精度、尺度匹配、语义一致性三个维度量化生成效果,有效解决了传统指标(如IoU)在密集场景下失真的问题,为行业提供了更科学的评估标准。

AIbase权威评论认为,InstanceAssemble的发布标志着AIGC正从“画得像”迈向“摆得准”的新阶段。当AI不仅能生成精美图像,还能严格遵循设计师的精确布局指令“精准摆放”每个元素时,AIGC才真正具备嵌入专业生产流程的能力。小红书此次开源不仅赋能社区创作者,更将有力推动整个行业向可控、可靠、可商用的生成式AI迈进。

小红书开源InstanceAssemble布局可控生成框架突破多实例图像精度插图2

论文链接:https://arxiv.org/abs/2509.16691
项目主页:https://github.com/FireRedTeam/InstanceAssemble

最新快讯

2025年12月26日

10:37
2025年12月26日,vivo正式宣布OriginOS 6系统开启新一轮公测招募活动,此次覆盖vivo及iQOO两大品牌旗下共12款旗舰机型。据悉,用户报名通道已全面开放,报名截止时间为2026年1月4日23:59。本次公测将重点测试X Fold2、X90系列、S30系列、iQOO 11系列以及iQOO Z10 Turbo系列等热门机型。参与用户需确保手机...
10:37
2026年1月1日,中国将迎来电动汽车行业的重要里程碑——全球首部强制性的电动汽车电耗限值国家标准《电动汽车能量消耗量限值第1部分:乘用车》正式落地实施。这一具有划时代意义的举措,标志着中国在推动新能源汽车高质量发展和实现碳达峰目标上迈出了坚实一步。新标准根据车辆重量科学设定电耗限值,相比此前仅具参考性的推荐标准,整体要求严格了约11%,彰显了国家在新能源汽...
10:37
2025年12月26日,备受瞩目的配电行业领军企业法拉迪正式在新三板市场成功挂牌,标志着其发展历程中具有里程碑意义的时刻。作为配电领域的佼佼者,法拉迪长期致力于为电网运营商及终端用户提供全方位的配电自动化、配网自动化、电能质量优化及台区成套解决方案。此次成功上市不仅为法拉迪开辟了全新的融资渠道,更为其在技术创新和市场拓展方面注入了强劲动力,有望进一步巩固其在...
10:37
2025年12月26日,备受瞩目的医疗器械研发企业中科盛康正式在新三板市场挂牌上市,标志着这家专注于医疗设备研发与创新的高新技术企业迈入资本市场发展的新纪元。作为国内医疗器械领域的创新先锋,中科盛康始终致力于通过前沿科技推动医疗健康事业进步,此次成功挂牌不仅是对其技术实力与市场前景的权威认可,更为其未来发展注入强劲动力。随着企业正式登陆新三板,将有效拓宽融资...
10:37
2025年12月26日,通信行业迎来重大突破——新一代Cat.1 bis通信技术正式问世。这项创新技术以惊人的微安级功耗、紧凑的小尺寸设计以及全球统一的单SKU兼容特性,为物联网设备连接开辟了全新路径。Cat.1 bis技术核心亮点在于其带宽自适应机制,能够实时监测信号质量并动态调整码流参数,从而在保证传输效率的同时,显著增强弱网环境下的视频流畅度,让偏远地...
10:37
2025年12月26日,备受瞩目的精细化工企业犇星新材正式向北交所递交招股说明书,标志着其迈向资本市场的重要一步。作为行业内的创新力量,犇星新材深耕环保型PVC热稳定剂、农药原药及中间体的研发生产领域,致力于为全球市场提供高品质的化工解决方案。其核心产品线涵盖了硫醇甲基锡类热稳定剂,以及高效杀虫剂和杀菌剂类农药原药,在多个细分市场占据领先地位。 此次冲刺北交...
10:37
2025年12月26日,备受瞩目的苏州铁近科技正式向北交所递交招股书,标志着这家中国工业精密制造领域的领军企业迈向资本市场的新征程。作为国内首家成功实现工业级特微型轴承量产的企业,铁近科技凭借其卓越的技术实力和市场前瞻性,在高品质特微型精密轴承的研发与生产领域树立了行业标杆。通过持续的技术创新和自主研发,铁近科技成功突破了多项技术壁垒,构建了高度智能化的生产...
10:36
2023年以来,人工智能技术革命正以前所未有的速度席卷全球,Agent作为AI落地的核心载体,正在重塑各行各业的内容创作生态。在内容创作领域,创作者们正面临一场前所未有的挑战:每周投入20小时创作,却只能换来区区200个阅读量;选题枯竭、改稿至深夜、多平台适配效率低下——这些问题正在吞噬80%的创作时间。作为内容创作领域的先行者,Loomi深度洞察这些行业痛...
10:36
联想集团即将在 CES 大展期间重磅发布其首款面向全球市场的战略级 AI 应用——"AI 超级智能体"。这一举措标志着联想在 AI 应用领域全面发力,其目标直指近期备受字节跳动关注的"豆包手机助手"。尽管该智能体的官方名称尚未揭晓,但据联想内部知情人士透露,其功能复杂度与生态协同能力将远超豆包助手。 与市面上常见的单一语音助手不同,联想这款超级智能体被定位为...
10:36
HodlHer 近期成功斩获150万美元战略融资,吸引了包括Chain Capital、Bitrise Capital以及CGV在内的知名投资机构强势入局。这笔资金将全面赋能HodlHer核心技术平台HodlOS的迭代升级与生态拓展,重点强化其在情感交互、多智能体系统构建以及链上代理经济领域的创新实力,为下一代Web3操作系统的落地部署注入强劲动力。 Hod...
10:36
人工智能领域迎来历史性变革,OpenAI 与博通(Broadcom)达成战略合作,宣告传统“仅依赖 GPU”计算模式的终结。双方成功完成定制 AI 推理引擎的设计工作,这款革命性芯片预计将于 2026 年下半年率先进入数据中心应用。根据规划,未来五年内该合作将部署高达 10 吉瓦(GW)的强大计算能力,为人工智能产业经济格局带来颠覆性影响。 这项创新芯片的设...
10:36
近年来,关于人工智能是否会超越人类智慧的讨论从未停止。然而,一项突破性的研究发现,像ChatGPT和Claude这样的顶尖AI模型,实际上正在"过度美化"人类的理性思维。这些先进的AI系统往往假设人类在决策过程中会展现出超乎常人的逻辑性和战略眼光,但现实却与这种理想化的认知大相径庭。 研究人员通过经典的博弈论实验——"凯恩斯选美比赛"(猜数字游戏)——对...