MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器

162 阅读3分钟

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 多视图图像生成:支持生成768分辨率的多视角一致图像。
  2. 适配定制模型:完美适配多种文本到图像模型和插件。
  3. 3D模型重建:支持从文本和图像生成多视图图像并重建3D模型。

正文(附运行示例)

MV-Adapter 是什么

公众号: 蚝油菜花 - MV-Adapter

MV-Adapter是由北京航空航天大学、VAST和上海交通大学的研究团队推出的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,无需改变原始网络结构或特征空间。

MV-Adapter基于创新的注意力架构和统一条件编码器,高效地建模多视图一致性和参考图像的相关性,支持生成高分辨率的多视角图像,并能适配多种定制模型和插件,实现广泛的应用场景。

MV-Adapter 的主要功能

  • 多视图图像生成:支持生成768分辨率的多视角一致图像。
  • 适配定制模型:完美适配定制的文本到图像模型、潜在一致性模型(LCM)、ControlNet插件等。
  • 3D模型重建:支持从文本和图像生成多视图图像,并重建3D模型。
  • 高质量3D贴图:用已知几何引导生成高质量的3D贴图。
  • 任意视角生成:能扩展至从任意视点生成图像,支持更广泛的下游任务。

MV-Adapter 的技术原理

  • 通用条件引导器:设计通用的条件引导器,编码相机和几何信息,为文本到图像模型提供不同类型的引导。
  • 解耦的注意力层:推出一种解耦的注意力机制,避免对基础模型的侵入性修改。
  • 并行注意力架构:将多视角注意力层与图像交叉注意力层并行添加,确保新引入的注意力层与预训练的自注意力层共享输入特征。
  • 多视角注意力机制:根据不同的应用需求,设计多种多视角注意力策略。
  • 图像交叉注意力机制:推出一种创新的图像交叉注意力机制,充分利用参考图像的细节信息。

如何运行 MV-Adapter

安装

首先克隆仓库:

git clone https://github.com/huanngzh/MV-Adapter.git
cd MV-Adapter

(可选)创建一个新的conda环境:

conda create -n mvadapter python=3.10
conda activate mvadapter

安装必要的包(需要torch > 2):

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt

运行示例

文本到多视图生成

使用SDXL模型:

python -m scripts.gradio_demo_t2mv --base_model "stabilityai/stable-diffusion-xl-base-1.0"

使用动漫风格的模型:

python -m scripts.gradio_demo_t2mv --base_model "cagliostrolab/animagine-xl-3.1"
图像到多视图生成

使用SDXL模型:

python -m scripts.gradio_demo_i2mv

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦