[Note] Qwen-Image 介绍简介 https://docs.comfy.org/zh-CN/tutorial

简介

docs.comfy.org/zh-CN/tutor…

wen-Image 是一个拥有 20B 参数的 MMDiT（多模态扩散变换器）模型，基于 Apache 2.0 许可证开源。

Qwen-Image 是阿里巴巴通义千问团队发布的首个图像生成基础模型，这是一个拥有 20B 参数的 MMDiT（多模态扩散变换器）模型，基于 Apache 2.0 许可证开源。该模型在复杂文本渲染和精确图像编辑方面取得了显著进展，无论是英语还是中文等多种语言都能实现高保真输出。模型亮点：

卓越的多语言文本渲染：支持英语、中文、韩语、日语等多种语言的高精度文本生成，保持字体细节和布局一致性
多样化艺术风格：从照片级真实到印象派绘画，从动漫美学到极简设计，流畅适应各种创意提示

相关链接*:

显存使用参考 使用 RTX 4090D 24GB 测试模型版本： Qwen-Image_fp8

VRAM: 86%
生成时间：首次 94 秒，第二次 71 秒

模型版本： Qwen-Image_bf16

VRAM: 96%
生成时间：首次 295 秒，第二次 131 秒

模型

ComfyUI 提供的版本

Qwen-Image_bf16 (40.9 GB)
Qwen-Image_fp8 (20.4 GB)
蒸馏版本 (非官方，仅需 15 步)

所有模型均可在 Huggingface 或者魔搭找到Diffusion Modelqwen_image_fp8_e4m3fn.safetensors下面的模型为非官方仅需 15 步的蒸馏版本蒸馏版本

qwen_image_distill_full_bf16.safetensors 40.9 GB
qwen_image_distill_full_fp8.safetensors 20.4 GB
蒸馏版本原始作者建议在 15 步 cfg 1.0
经测试该蒸馏版本在 10 步 cfg 1.0 下表现良好，根据你想要的图像类型选择 euler 或 res_multistep

Text Encoderqwen_2.5_vl_7b_fp8_scaled.safetensors

VAEqwen_image_vae.safetensors

workflow

📂 ComfyUI/
├── 📂 models/
│   ├── 📂 diffusion_models/
│   │   └── qwen_image_fp8_e4m3fn.safetensors
│   ├── 📂 vae/
│   │   └── qwen_image_vae.safetensors
│   └── 📂 text_encoders/
│       └── qwen_2.5_vl_7b_fp8_scaled.safetensors

确保 Load Diffusion Model节点加载了qwen_image_fp8_e4m3fn.safetensors
确保 Load CLIP节点中加载了qwen_2.5_vl_7b_fp8_scaled.safetensors
确保 Load VAE节点中加载了qwen_image_vae.safetensors
确保 EmptySD3LatentImage节点中设置好了图片的尺寸
在CLIP Text Encoder节点中设置好提示词，目前经过测试目前至少支持：英语、中文、韩语、日语、意大利语等
点击 Queue 按钮，或者使用快捷键 Ctrl(cmd) + Enter(回车) 来运行工作流

GGUF

hf-mirror.com/city96/Qwen…

The model files can be used in ComfyUI with the ComfyUI-GGUF custom node. Place the required model(s) in the following folders:

Type	Name	Location	Download
Main Model	Qwen-Image	`ComfyUI/models/diffusion_models`	GGUF (this repo)
Text Encoder	Qwen2.5-VL-7B	`ComfyUI/models/text_encoders`	Safetensors / GGUF
VAE	Qwen-Image VAE	`ComfyUI/models/vae`	Safetensors