Qwen-Image,阿里千问团队出的图像基础模型,参数量约 20 亿。
-
文字渲染能力强,能准确渲染中英文,复杂布局,多行文本
-
编辑一致性好,具有很好的图像编辑(如修改、增减物体、重绘)能力。
-
中文能力,在文字生成方面,特别是中文字形、排版方面有显著提升。
可以看几个案例,qwen-image出的画面质量和中文文字效果,都很强。
文章最后,还有很多类似案例的工作流,可以直接获取。
一、qwen文生图工作流介绍
我们可以和SD1.5的文生图流程对比一下,可以看到。有2个主要变化。
-
取消了checkpoint节点,改成的3个节点,UNET加载器,CLIP加载器,VAE加载器。
-
UNET后面增加了一个节点,模型采样算法AuraFlow
为什么取消checkpoint,改用UNET加载器,CLIP加载器,VAE加载器。
SD1.5的模型是一体化模型,U-Net、CLIP、VAE 打包在同一文件里,这样使用简单但不够灵活。
Qwen-Image 则采用模块化设计,将 U-Net、CLIP、VAE 拆分独立,方便替换升级,支持多模态任务,更贴近训练流程,同时可节省显存和提升效率。
这只是一个文件架构方面的不同。也就是一个整个包和多个单独包的区别。
所以qwen-image我们需要下载3个不同的模型文件。
-
UNET加载器,加载去燥模型的核心。相当于画家的“手”,具体执行画画动作。
-
CLIP加载器,加载文本编码器,把正面/负面提示词转换成向量,让 UNet 知道“应该画什么 / 避免什么”。
-
VAE加载器,负责在像素空间 ↔ latent 空间之间转换:
节点:模型采样算法AuraFlow的作用
AuraFlow 是一种专门为 扩散模型(特别是 Qwen-Image 这类 Transformer 架构的图像生成模型)设计的 采样算法。
作用:
-
控制去噪过程的轨迹,让模型从噪声逐步生成清晰图像;
-
相比传统采样器(如 Euler、DPM++),AuraFlow 在 平滑度、细节保真度、稳定性 上做了优化;
-
更适配新一代大模型(MMDiT、DiT 系列),能减少伪影、提升收敛效果。
偏移参数,用来控制画面风格:
如果图像出现太多模糊、昏暗或质量不佳的情况,增大偏移量。如果想尝试提高细节,则减小偏移量。
我设置的是3.5
二、qwen-image模型选择
下面我们介绍下qwen-imgae的模型如何下载,一节bf16、fp8、gguf模型的区别。
| 模型 | 文件大小 | 下载地址 | 说明 |
|---|---|---|---|
| qwen_image_bf16.safetensors | 40G | 下载地址 | 需要显存30G |
| qwen_image_fp8_e4m3fn.safetensors | 20G | 下载地址 | 需要显存40G |
| qwen-image-Q**.gguf | 7-20G | GGUF模型下载 | 最低需要显存8G |
模型下载BF16,FP8有啥区别
深度学习里,模型权重和中间计算结果的精度表示方式,直接影响到模型的训练效率和推理速度。常见的表示方式有:
FP32(32位浮点数):训练时最准确,但计算和存储开销大。
FP16 / BF16(16位浮点数):降低显存占用,加速计算,现在是主流。
FP8(8位浮点数):更进一步压缩,正在逐渐成为前沿趋势。
所以精度越低,文件越小,但是效果也会差点。
下载之后,文件储存位置如下:
GGUF是什么?如何下载
GGUF是专为大模型量化与部署而设计的文件格式,目标是成为统一的轻量化模型权重文件标准。
简单来说,GGUF 就是 把大模型转换成能在本地高效运行的格式,尤其适合 CPU、轻量 GPU、甚至移动端设备。
GGUF 的文件名通常会带上量化方式,例如:
-
Q2_K:极度压缩,最小文件,效果下降明显
-
Q4_0 / Q4_K_M:常用量化,文件小+效果平衡
-
Q5_1 / Q5_K_M:更高精度,稍大
-
Q8_0:接近 FP16 精度,体积大,但几乎无损
一般来说,Q4_K_M 是最常用的折中方案。
GGUF相关的CLIP和VAE可以参考gguf作者给的参考。也可以直接用上面官方提供的VAE和CLIP
三、网盘下载
如果你嫌麻烦,我在网盘打包放了一份,公众号后台回复【20250924】,获取。
还有很多参考案例,直接用comfyUI打开,就可以获得生成这些图片的工作流。
参考资料: