[Note] Qwen-Image 介绍

262 阅读2分钟

简介

docs.comfy.org/zh-CN/tutor…

wen-Image 是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。

Qwen-Image 是阿里巴巴通义千问团队发布的首个图像生成基础模型,这是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。该模型在复杂文本渲染精确图像编辑方面取得了显著进展,无论是英语还是中文等多种语言都能实现高保真输出。模型亮点

  • 卓越的多语言文本渲染:支持英语、中文、韩语、日语等多种语言的高精度文本生成,保持字体细节和布局一致性
  • 多样化艺术风格:从照片级真实到印象派绘画,从动漫美学到极简设计,流畅适应各种创意提示

相关链接*:

显存使用参考 使用 RTX 4090D 24GB 测试模型版本: Qwen-Image_fp8

  • VRAM: 86%
  • 生成时间: 首次 94 秒,第二次 71 秒

模型版本: Qwen-Image_bf16

  • VRAM: 96%
  • 生成时间: 首次 295 秒,第二次 131 秒

模型

ComfyUI 提供的版本

  • Qwen-Image_bf16 (40.9 GB)
  • Qwen-Image_fp8 (20.4 GB)
  • 蒸馏版本 (非官方,仅需 15 步)

所有模型均可在 Huggingface 或者 魔搭 找到Diffusion Modelqwen_image_fp8_e4m3fn.safetensors下面的模型为非官方仅需 15 步的蒸馏版本 蒸馏版本

Text Encoderqwen_2.5_vl_7b_fp8_scaled.safetensors

VAEqwen_image_vae.safetensors

workflow

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── qwen_image_fp8_e4m3fn.safetensors
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors
  1. 确保 Load Diffusion Model节点加载了qwen_image_fp8_e4m3fn.safetensors
  2. 确保 Load CLIP节点中加载了qwen_2.5_vl_7b_fp8_scaled.safetensors
  3. 确保 Load VAE节点中加载了qwen_image_vae.safetensors
  4. 确保 EmptySD3LatentImage节点中设置好了图片的尺寸
  5. CLIP Text Encoder节点中设置好提示词,目前经过测试目前至少支持:英语、中文、韩语、日语、意大利语等
  6. 点击 Queue 按钮,或者使用快捷键 Ctrl(cmd) + Enter(回车) 来运行工作流

GGUF

hf-mirror.com/city96/Qwen…

The model files can be used in ComfyUI with the ComfyUI-GGUF custom node. Place the required model(s) in the following folders:

TypeNameLocationDownload
Main ModelQwen-ImageComfyUI/models/diffusion_modelsGGUF (this repo)
Text EncoderQwen2.5-VL-7BComfyUI/models/text_encodersSafetensors / GGUF
VAEQwen-Image VAEComfyUI/models/vaeSafetensors

image.png