DynamicControl：腾讯推出动态地条件控制图像生成框架，结合了多模态大语言模型的推理能力和文生图模型的生成能力

2024-12-30 134 阅读3分钟

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

原文链接：mp.weixin.qq.com/s/eNYKPamGw…

🚀 快速阅读

功能：支持动态组合不同控制信号，自适应选择条件。
技术：集成多模态大语言模型，优化条件排序。
应用：增强图像生成的可控性，保持图像质量和文本对齐。

正文

DynamicControl 是什么

公众号: 蚝油菜花 - DynamicControl

DynamicControl 是腾讯优图联合南洋理工、浙大等研究机构推出的集成多模态大语言模型（MLLM）推理能力的文本生成图像（T2I）任务新框架。该框架通过自适应地选择不同条件，实现了动态多控制对齐，显著增强了图像生成的可控性，同时保持了图像质量和图像文本对齐。

DynamicControl 支持多种控制信号的动态组合，能根据条件的重要性和内部关系自适应选择不同数量和类型的条件，优化了生成更接近源图像的图像。这一创新框架解决了现有方法中处理多条件效率低下或使用固定数量条件的局限性，提供了一个更全面的方法来管理多种条件。

DynamicControl 的主要功能

动态条件组合：支持不同控制信号的动态组合，自适应选择不同数量和类型的条件。
条件评估器：集成多模态大型语言模型（MLLM）来构建高效的条件评估器，优化条件的排序。
增强可控性：实验结果显示，DynamicControl 大大增强了可控性，不会牺牲图像质量或图像文本对齐。
解决多条件问题：框架解决了现有方法中处理多条件效率低下或使用固定数量条件的局限性。

DynamicControl 的技术原理

双循环控制器：为所有输入条件生成初始的真实分数排序，评估提取条件和输入条件之间的相似性。
多模态大语言模型：构建高效的条件评估器，优化条件的最佳排序。
多控制适配器：自适应地选择不同的条件，实现动态多控制对齐。
动态条件选择：支持不同控制信号的动态组合，自适应选择不同数量和类型的条件。
自适应机制：动态和多样化的控制条件在数量和类型上都没有冲突，提高模型的有效性和效率。

资源

项目官网：hithqd.github.io/projects/Dy…
GitHub 仓库：github.com/hithqd/Dyna…
arXiv 技术论文：arxiv.org/pdf/2412.03…

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦