简介
wen-Image 是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。
Qwen-Image 是阿里巴巴通义千问团队发布的首个图像生成基础模型,这是一个拥有 20B 参数的 MMDiT(多模态扩散变换器)模型,基于 Apache 2.0 许可证开源。该模型在复杂文本渲染和精确图像编辑方面取得了显著进展,无论是英语还是中文等多种语言都能实现高保真输出。模型亮点:
- 卓越的多语言文本渲染:支持英语、中文、韩语、日语等多种语言的高精度文本生成,保持字体细节和布局一致性
- 多样化艺术风格:从照片级真实到印象派绘画,从动漫美学到极简设计,流畅适应各种创意提示
相关链接*:
显存使用参考 使用 RTX 4090D 24GB 测试模型版本: Qwen-Image_fp8
- VRAM: 86%
- 生成时间: 首次 94 秒,第二次 71 秒
模型版本: Qwen-Image_bf16
- VRAM: 96%
- 生成时间: 首次 295 秒,第二次 131 秒
模型
ComfyUI 提供的版本
- Qwen-Image_bf16 (40.9 GB)
- Qwen-Image_fp8 (20.4 GB)
- 蒸馏版本 (非官方,仅需 15 步)
所有模型均可在 Huggingface 或者 魔搭 找到Diffusion Modelqwen_image_fp8_e4m3fn.safetensors下面的模型为非官方仅需 15 步的蒸馏版本 蒸馏版本
-
蒸馏版本原始作者建议在 15 步 cfg 1.0
-
经测试该蒸馏版本在 10 步 cfg 1.0 下表现良好,根据你想要的图像类型选择 euler 或 res_multistep
Text Encoderqwen_2.5_vl_7b_fp8_scaled.safetensors
workflow
📂 ComfyUI/
├── 📂 models/
│ ├── 📂 diffusion_models/
│ │ └── qwen_image_fp8_e4m3fn.safetensors
│ ├── 📂 vae/
│ │ └── qwen_image_vae.safetensors
│ └── 📂 text_encoders/
│ └── qwen_2.5_vl_7b_fp8_scaled.safetensors
- 确保
Load Diffusion Model节点加载了qwen_image_fp8_e4m3fn.safetensors - 确保
Load CLIP节点中加载了qwen_2.5_vl_7b_fp8_scaled.safetensors - 确保
Load VAE节点中加载了qwen_image_vae.safetensors - 确保
EmptySD3LatentImage节点中设置好了图片的尺寸 - 在
CLIP Text Encoder节点中设置好提示词,目前经过测试目前至少支持:英语、中文、韩语、日语、意大利语等 - 点击
Queue按钮,或者使用快捷键Ctrl(cmd) + Enter(回车)来运行工作流
GGUF
The model files can be used in ComfyUI with the ComfyUI-GGUF custom node. Place the required model(s) in the following folders:
| Type | Name | Location | Download |
|---|---|---|---|
| Main Model | Qwen-Image | ComfyUI/models/diffusion_models | GGUF (this repo) |
| Text Encoder | Qwen2.5-VL-7B | ComfyUI/models/text_encoders | Safetensors / GGUF |
| VAE | Qwen-Image VAE | ComfyUI/models/vae | Safetensors |