Qwen2VL + Flux：基于VLM的可控图片理解生成Qwen2VL + Flux：基于VLM的可控图片理解生成 Q

Qwen2VL + Flux：基于VLM的可控图片理解生成

Qwen2vl-Flux 是一种先进的多模态图像生成模型，它将 Qwen2VL 的视觉语言理解能力融入到 FLUX 中。该模型擅长基于文本提示和视觉参考生成高质量图像，提供卓越的多模态理解和控制能力。模型架构将 Qwen2VL 的视觉语言能力集成到 FLUX 框架中，实现更精确和上下文感知的图像生成。关键组件包括：视觉语言理解模块（Qwen2VL）、增强的 FLUX 骨干、多模式生成管道、结构控制集成。特点包括增强的视觉语言理解：利用 Qwen2VL 实现卓越的多模态理解。

此实现使用 Qwen2VL 作为视觉语言模型，以增强多模态理解能力，它与 Flux 架构相集成。同时，它还支持 ControlNet 的功能，包括深度估计和线条检测，以便更精确地控制图像生成。

模型架构

Qwen2VL + Flux整体模型结构：

关键架构特性：

视觉语言理解：利用Qwen2VL实现卓越的图像和文本理解
增强控制：集成 ControlNet 以实现精确的结构引导
灵活的工作流程：支持各种生成模式，包括变分、图像到图像以及图像修复

效果

可以看到，基于Qwen2VL的图像Embedding空间，可以实现对图像的编辑。

同时也能实现对图片的融合，使用两张图片，对风格进行融合。

支持基于GridStyle的风格转换。

上手

安装克隆存储库并安装依赖项： git clone github.com/erwold/qwen… qwen2vl-fluxpip install -r requirements.txt 从 Hugging Face 下载模型检查点：

from huggingface_hub 

import snapshot_download


snapshot_download("Djrango/Qwen2vl-Flux") 


from model import FluxModel

# Initialize model
model = FluxModel(device="cuda")

# Image Variation
outputs = model.generate(
    input_image_a=input_image,
    prompt="Your text prompt",
    mode="variation"
)

# Image Blending
outputs = model.generate(
    input_image_a=source_image,
    input_image_b=reference_image,
    mode="img2img",
    denoise_strength=0.8
)

# Text-Guided Blending
outputs = model.generate(
    input_image_a=input_image,
    prompt="Transform into an oil painting style",
    mode="variation",
    guidance_scale=7.5
)

# Grid-Based Style Transfer
outputs = model.generate(
    input_image_a=content_image,
    input_image_b=style_image,
    mode="controlnet",
    line_mode=True,
    depth_mode=True
)

Technical Specifications

Framework: PyTorch 2.4.1+
Base Models:
- FLUX.1-dev
- Qwen2-VL-7B-Instruct
Memory Requirements: 48GB+ VRAM
Supported Image Sizes:
- 1024x1024 (1:1)
- 1344x768 (16:9)
- 768x1344 (9:16)
- 1536x640 (2.4:1)
- 896x1152 (3:4)
- 1152x896 (4:3)