‌​​‬​‬⁣​‬​‬⁢​⁣⁤​‬‬⁣⁣‍⁢⁣⁢​​​‍⁤⁢​​⁢‌⁢​⁣​​‌⁤​⁤​⁡​⁤【2025comfyUI教程】Qwen-image文生图入门,如何安装下载,搭建文生图工作流

229 阅读4分钟

Qwen-Image,阿里千问团队出的图像基础模型,参数量约 20 亿。

  • 文字渲染能力强,能准确渲染中英文,复杂布局,多行文本

  • 编辑一致性好,具有很好的图像编辑(如修改、增减物体、重绘)能力。

  • 中文能力,在文字生成方面,特别是中文字形、排版方面有显著提升。

可以看几个案例,qwen-image出的画面质量和中文文字效果,都很强。

文章最后,还有很多类似案例的工作流,可以直接获取。

一、qwen文生图工作流介绍

我们可以和SD1.5的文生图流程对比一下,可以看到。有2个主要变化。

  • 取消了checkpoint节点,改成的3个节点,UNET加载器,CLIP加载器,VAE加载器。

  • UNET后面增加了一个节点,模型采样算法AuraFlow

为什么取消checkpoint,改用UNET加载器,CLIP加载器,VAE加载器。

SD1.5的模型是一体化模型,U-Net、CLIP、VAE 打包在同一文件里,这样使用简单但不够灵活。

Qwen-Image 则采用模块化设计,将 U-Net、CLIP、VAE 拆分独立,方便替换升级,支持多模态任务,更贴近训练流程,同时可节省显存和提升效率。

这只是一个文件架构方面的不同。也就是一个整个包和多个单独包的区别。

所以qwen-image我们需要下载3个不同的模型文件。

  • UNET加载器,加载去燥模型的核心。相当于画家的“手”,具体执行画画动作。

  • CLIP加载器,加载文本编码器,把正面/负面提示词转换成向量,让 UNet 知道“应该画什么 / 避免什么”。

  • VAE加载器,负责在像素空间 ↔ latent 空间之间转换:

节点:模型采样算法AuraFlow的作用

AuraFlow 是一种专门为 扩散模型(特别是 Qwen-Image 这类 Transformer 架构的图像生成模型)设计的 采样算法

作用

  • 控制去噪过程的轨迹,让模型从噪声逐步生成清晰图像;

  • 相比传统采样器(如 Euler、DPM++),AuraFlow 在 平滑度、细节保真度、稳定性 上做了优化;

  • 更适配新一代大模型(MMDiT、DiT 系列),能减少伪影、提升收敛效果。

偏移参数,用来控制画面风格

如果图像出现太多模糊、昏暗或质量不佳的情况,增大偏移量。如果想尝试提高细节,则减小偏移量。

我设置的是3.5

二、qwen-image模型选择

下面我们介绍下qwen-imgae的模型如何下载,一节bf16、fp8、gguf模型的区别。

模型文件大小下载地址说明
qwen_image_bf16.safetensors40G下载地址需要显存30G
qwen_image_fp8_e4m3fn.safetensors20G下载地址需要显存40G
qwen-image-Q**.gguf7-20GGGUF模型下载最低需要显存8G

模型下载BF16,FP8有啥区别

深度学习里,模型权重和中间计算结果的精度表示方式,直接影响到模型的训练效率和推理速度。常见的表示方式有:

FP32(32位浮点数):训练时最准确,但计算和存储开销大。

FP16 / BF16(16位浮点数):降低显存占用,加速计算,现在是主流。

FP8(8位浮点数):更进一步压缩,正在逐渐成为前沿趋势。

所以精度越低,文件越小,但是效果也会差点。

modelscope.cn/models/Comf…

下载之后,文件储存位置如下:

GGUF是什么?如何下载

GGUF是专为大模型量化与部署而设计的文件格式,目标是成为统一的轻量化模型权重文件标准。

简单来说,GGUF 就是 把大模型转换成能在本地高效运行的格式,尤其适合 CPU、轻量 GPU、甚至移动端设备。

GGUF 的文件名通常会带上量化方式,例如:

  • Q2_K:极度压缩,最小文件,效果下降明显

  • Q4_0 / Q4_K_M:常用量化,文件小+效果平衡

  • Q5_1 / Q5_K_M:更高精度,稍大

  • Q8_0:接近 FP16 精度,体积大,但几乎无损

一般来说,Q4_K_M 是最常用的折中方案。

modelscope.cn/models/city…

GGUF相关的CLIP和VAE可以参考gguf作者给的参考。也可以直接用上面官方提供的VAE和CLIP

modelscope.cn/models/city…

三、网盘下载

如果你嫌麻烦,我在网盘打包放了一份,公众号后台回复【20250924】,获取。

还有很多参考案例,直接用comfyUI打开,就可以获得生成这些图片的工作流。

参考资料:

Qwen-image开源!9G显存可用,直接赶超闭源模型!设计师提效福音!免费本地使用

通义千问 - 图像 ComfyUI 原生工作流示例