CreatiLayout:复旦与字节联合推出布局到图像生成技术,支持高质量图像生成与布局优化

89 阅读3分钟

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 技术核心:基于孪生多模态扩散变换器,CreatiLayout 实现高质量图像生成与布局优化。
  2. 数据集支持:构建了包含 270 万图像-文本对和 1070 万实体标注的大规模布局数据集 LayoutSAM。
  3. 多模态交互:通过 SiamLayout 框架,布局信息与图像模态独立交互,解决模态竞争问题。

CreatiLayout 是什么

公众号: 蚝油菜花 - CreatiLayout

CreatiLayout 是复旦大学和字节跳动联合提出的创新布局到图像生成(Layout-to-Image, L2I)技术。该技术通过构建大规模的布局数据集 LayoutSAM,包含 270 万图像-文本对和 1070 万个实体标注,每个实体都详细描述了颜色、形状、纹理等属性。

CreatiLayout 的核心在于其 SiamLayout 框架,该框架将布局信息视为一种独立的模态,通过 MM-DiT 原生的 MM-Attention 实现布局与图像模态的交互,有效解决了模态竞争问题。此外,CreatiLayout 还引入了 LayoutDesigner,基于大语言模型帮助用户生成和优化布局,支持多种输入方式,如中心点、掩码、草图和文本描述等。

CreatiLayout 的主要功能

  • 高质量图像生成:基于孪生多模态扩散变换器(Siamese Multimodal Diffusion Transformer),CreatiLayout 能生成高质量和细粒度可控的图像,精确渲染复杂的属性,如颜色、纹理、形状等。
  • 布局生成与优化:通过 LayoutDesigner,CreatiLayout 可以根据用户的多种输入(如中心点、掩码、草图、文本描述等)生成和优化布局,使用户能更灵活地表达设计意图,生成和谐美观的布局。
  • 大规模数据集支持:CreatiLayout 构建了名为 LayoutSAM 的大规模布局数据集,包含 270 万图像-文本对和 1070 万个实体标注,为模型提供了丰富的数据支持。
  • 多模态交互:在模型架构上,CreatiLayout 将布局信息视为一种独立的模态,通过 MM-DiT 的 MM-Attention 实现布局与图像模态的交互。

CreatiLayout 的技术原理

  • 孪生多模态扩散变换器:CreatiLayout 基于这种变换器来实现高质量和细粒度可控的图像生成,能有效地处理多模态数据,包括图像、文本和布局信息。
  • SiamLayout 框架:该框架将布局信息视为一种独立的模态,并与文本和图像模态同等重要。通过 MM-DiT 原生的 MM-Attention 实现布局模态与图像模态的交互,缓解了模态竞争问题,增强了布局的指导作用。
  • LayoutDesigner:基于大型语言模型进行布局规划和优化,支持用户通过多种输入形式(如中心点、掩码、草图、文本描述等)生成和优化布局。

如何运行 CreatiLayout

1. 环境配置

首先,创建一个 Conda 环境并安装所需的依赖:

conda create -n creatilayout python=3.10 -y
conda activate creatilayout
conda install pytorch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt
2. 运行示例代码

你可以通过以下代码生成图像:

python test_sample.py
3. 在线体验

你也可以通过 Hugging Face 的在线 Demo 体验 CreatiLayout 的功能: huggingface.co/spaces/HuiZ…

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦