Lumina-Image 2.0：上海 AI Lab 开源的统一图像生成模型，支持生成多分辨率、多风格的图像Lumina

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

大家好，我是蚝油菜花，今天跟大家分享一下 Lumina-Image 2.0 这个由上海 AI Lab 开源的高效统一图像生成模型。

🚀 快速阅读

Lumina-Image 2.0 是一个开源的高效统一图像生成模型，参数量为26亿，基于扩散模型和Transformer架构。

核心功能：支持高质量图像生成、多语言提示词、复杂提示词理解和多种推理求解器。
技术原理：采用扩散模型和Transformer架构，结合中点求解器、欧拉求解器和DPM求解器，优化训练与推理流程。

Lumina-Image 2.0 是什么

Lumina-Image 2.0

Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型，参数量为26亿，基于扩散模型和Transformer架构。该模型在图像生成质量、复杂提示理解和资源效率方面表现出色，能够根据文本描述生成高质量、多风格的图像。模型支持多种推理求解器，如中点求解器、欧拉求解器和DPM求解器，生成速度较快。

Lumina-Image 2.0 在文本对齐能力上达到了行业领先水平，能够生成逼真的写真、艺术字、风格化图像等，并且支持中英双语提示词，可以根据不同语言的描述生成对应的图像。此外，模型还已实现对ComfyUI的原生支持，用户可以通过ComfyUI直接使用该模型。

Lumina-Image 2.0 的主要功能

高质量图像生成：能生成高质量的写真、艺术字、风格化图像、逻辑推理图像等。
多语言支持：支持中英双语提示词，可根据不同语言的描述生成对应的图像。
复杂提示词理解：对动物、人物表情等复杂提示词的理解和展示能力较强，能更准确地根据文本描述生成图像。
多种推理求解器支持：支持中点求解器、欧拉求解器和DPM求解器等多种推理求解器。
艺术性和风格表现：在艺术性和风格表现上表现出色，能生成多种风格的图像。
与ComfyUI集成：已实现对ComfyUI的原生支持，用户可以通过ComfyUI直接使用该模型。

Lumina-Image 2.0 的技术原理

扩散模型：Lumina-Image 2.0 使用了基于流的扩散模型（Flow-based Diffusion Model），通过逐步去除噪声来生成图像。具体来说，先将图像数据添加高斯噪声，然后通过训练一个神经网络来逐步去除这些噪声，最终恢复出清晰的图像。
Transformer 架构：Lumina-Image 2.0 的核心架构是 Transformer，能处理长距离依赖关系，对文本提示的理解能力更强。使用了 Gemma-2-2B 作为文本编码器，能高效地将文本提示转化为图像生成所需的特征。模型采用 FLUX-VAE-16CH 作为 VAE（变分自编码器），用于高效地编码和解码图像。
多种求解器支持：为了提高生成效率和质量，Lumina-Image 2.0 支持多种推理求解器，包括中点求解器（Midpoint Solver）、欧拉求解器（Euler Solver）和 DPM 求解器。可以根据不同的生成需求和资源限制进行选择，在速度和质量之间取得平衡。
高效的训练与推理：Lumina-Image 2.0 的参数量为 26 亿，相对较小的参数量在资源效率方面表现出色。模型通过优化训练流程和推理方法，能在保持高质量生成的同时，降低计算资源的消耗。

如何运行 Lumina-Image 2.0

1. 创建 Conda 环境并安装 PyTorch

conda create -n Lumina2 -y
conda activate Lumina2
conda install python=3.11 pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia -y

2. 安装依赖项

pip install -r requirements.txt

3. 安装 flash-attn

pip install flash-attn --no-build-isolation

4. 准备数据

你可以将数据文件的链接放在 ./configs/data.yaml 中。图像-文本对训练数据格式应遵循以下格式：

{
    "image_path": "path/to/your/image",
    "prompt": "a description of the image"
}

5. 开始微调

bash scripts/run_1024_finetune.sh

6. 推理代码

我们支持多种求解器，包括中点求解器、欧拉求解器和 DPM 求解器。

Gradio Demo

python demo.py \
    --ckpt /path/to/your/ckpt \
    --res 1024 \
    --port 12123

直接批量推理

bash scripts/sample.sh

资源

GitHub 仓库：github.com/Alpha-VLLM/…
HuggingFace 仓库：huggingface.co/Alpha-VLLM/…

🥦 微信公众号｜搜一搜：蚝油菜花 🥦