NIPS2025，小红书新研究提出图像InstanceAssemble 算法NIPS2025 会议上，小红书智创 AIG

大家好，我是AI算法工程师七月，曾在华为、阿里任职，技术栈广泛，爱好广泛，喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。

关注公众号：智启七月，获取最新观察、思考和文章推送。
关注知乎：七月，获取最新观察、思考和文章推送。
关注CSDN：智启七月，获取最新观察、思考和文章推送。
关注稀土掘金：智启七月，获取最新观察、思考和文章推送。
网站1 ：七月
网站2：zerodesk

我会在这里分享关于编程技术、独立开发、行业资讯，思考感悟等内容。爱好交友，想加群滴滴我，wx：swk15688532358，交流分享

如果本文能给你提供启发或帮助，欢迎动动小手指，一键三连 (点赞、评论、转发)，给我一些支持和鼓励，谢谢。

作者：七月链接：www.xinghehuimeng.com.cn 来源：七月著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

传送门

论文链接：arxiv.org/abs/2509.16…
项目主页：github.com/FireRedTeam…

InstanceAssemble 算法发布

在 AIGC 技术爆发式发展的当下，文本到图像（T2I）生成模型已能产出高度逼真的视觉内容，但布局可控生成（Layout-to-Image, L2I）仍是行业公认的技术难题。

复杂场景下的位置精准对齐、多实例语义一致性保持、模型效率与效果的平衡，这些核心痛点长期制约着 AIGC 在专业创作领域的落地。

添加图片注释，不超过 140 字（可选）

现有方案各有不足：无训练方法虽然无需改动基础模型，但在复杂布局下效果显著下降，且对超参数敏感、推理速度慢；有训练方法通过额外模块注入布局信息，但往往引入海量参数，训练代价高昂。评估方面，传统指标也存在偏差，难以准确衡量布局对齐程度。

NIPS2025 会议上，小红书智创 AIGC 团队提出的 InstanceAssemble 算法，通过创新的级联架构与实例级注意力机制，为解决这些难题提供了全新思路，成为布局控制生成领域的突破性成果。

原理解析

InstanceAssemble的贡献主要在于三点：

InstanceAssemble 创新性地采用两阶段级联结构，将全局背景生成与局部实例组装分离处理，从根本上解决了单阶段模式的冲突问题。
通过创新的独立注意力和局部注意力的方式，而不是采用传统的局部+全局的注意力的方式。实现对复杂布局的鲁棒处理，大幅提升了鲁棒性。
并且，InstanceAssemble算法在使用LORA的情况下，实现了对DIT的扩展，比传统的方法减少了97%的开销，推理速度也提升了三倍有余。

InstanceAssemble 方法的核心创新在于采用了级联架构，将全局文本提示与实例级布局条件拆分为两个阶段逐步处理。它的运作逻辑是先借助原有的 DiT（Diffusion Transformer）架构，仅依据全局文本提示生成贴合整体语境的图像背景，为后续内容构建打下自然协调的视觉基础；随后再通过专门设计的实例组装注意力模块（Assemble-Attn），逐个将布局中的实例信息整合到背景的指定位置，实现对局部细节的精细把控。这种分阶段的处理方式从根本上避免了传统单阶段方法中同时处理所有实例可能引发的空间冲突与语义混淆，完美兼顾了全局画面质量与局部实例的位置对齐精度。

添加图片注释，不超过 140 字（可选）

在 Assemble-Attn 模块的设计上，其关键机制是将每个目标实例的注意力计算严格限制在对应的图像区域内，比如某个实例的边界框所划定的范围，这样就从根源上杜绝了不同实例间的注意力干扰。这种独立的注意力处理模式让模型即便面对物体重叠、小物体密集排布等复杂布局场景，也能精准捕捉每个实例的特征细节；同时，模块还会通过动态权重融合机制整合所有实例特征，确保前景物体与背景、实例之间都能自然过渡，不会出现生硬的 "拼接感"。

此外，InstanceAssemble 通过 LoRA（Low-Rank Adaptation）模块实现了轻量级的模型适配，仅需在基础扩散模型中注入少量新增参数 —— 占基础模型参数量的 3% 左右，就能完成对现有 DiT-based 文本生成图像模型的扩展。这种设计不仅让模型在保留原有生成能力（如画质、风格多样性）的前提下，高效掌握布局控制能力，无需对整个基础模型进行大规模重训，还具备极强的兼容性，比如可以直接加载油画、3D 等不同风格的预训练 LoRA 权重，在保证布局精准的同时生成对应风格的图像。

添加图片注释，不超过 140 字（可选）

最后，该方法还支持灵活的多模态布局输入，每个实例既支持通过文本描述明确其语义属性（如 "红色陶瓷杯子"），也能接入参考图片、深度图、边缘图等视觉信息来约束形态、纹理等细节，通过多维度信息的融合进一步丰富内容表示，满足不同场景下的精细控制需求。

效果

为了测试该算法的效果，作者构建了一个新的测试数据集 DenseLayout 和一种用于布局到图像评估的新指标布局基础分数（LGS）。实验结果表明，该方法在复杂和密集的布局条件下实现了最先进的性能和鲁棒的能力。

DenseLayout数据集包含 5000 张图像和约 90000 个实例（平均每图 18 个目标），专门用于测试在高密度布局场景下的生成效果。

添加图片注释，不超过 140 字（可选）

此外，布局接地分数（LGS）整合了空间精度和语义精度：空间精度（DetectIoU）通过现成的检测器检测所有实例，根据条件 bbox 计算 IoU，并报告所有实例的全局平均 IoU，以实现同等权重。

在上述的条件中，该算法保持了很好的性能和效果。实验表明即使是在稠密布局场景下（远超训练时≤10 个实例的密度），InstanceAssemble 依然能够精确地将每个目标生成在指定位置，并正确呈现其语义属性。

添加图片注释，不超过 140 字（可选）

此外，得益于 LoRA 轻量架构，InstanceAssemble 相较其他有训练方法在参数开销和推理耗时上更具优势，在效率与效果之间取得了良好平衡。

添加图片注释，不超过 140 字（可选）