为了便于理解,先大致解释下文生图的工作原理,便于理解后面的内容。
文生图的大致原理,是由扩散模型,根据一定的算法,在潜空间,一步步将一个无序的像素点(噪声),转成某种图像风格的像素。转换的过程都是在潜空间,潜空间的数据需要通过VAE解码成,人可见的图片。
转换的过程,可以理解成,一个公式,根据参数的转换过程。如果初始参数不变,生成的结果是固定的。也就是可以稳定的生成同一张图片。
一个文生图的基本配置如下:
模型是什么?如何分类?
模型是决定画面风格、细节质量和生成可控性的核心要素。不同的模型在功能、作用、市场场景都有不同,他们彼此分工又互相配合。
ComfyUI 的模型大致可以以分为 五类:
-
基础生成类(Checkpoints、VAE)
-
风格与微调类(LoRA、Embedding、Hypernetwork)
-
控制类(ControlNet、Adapter 系列)
-
后处理增强类(Upscaler、FaceDetailer)
-
辅助理解类(CLIP、Caption 模型)
一、基础生成类模型
1. Checkpoints(基础模型)
-
作用:决定生成图像的整体风格和质量,相当于“画师”。例如有的是二次元风格、有的出图更加真实。
-
存放文件夹:
models/checkpoints -
典型模型:Stable Diffusion 1.5、2.1、XL,DreamShaper,Waifu Diffusion。
-
特点:体积大(2~7GB),覆盖通用场景。
2. VAE(变分自编码器)
-
作用:最后把“潜空间图像”转化为真正可见的图片。转化的过程,可以调节色彩表现,避免偏色、发灰。换 VAE,就像给照片套了滤镜。
-
存放文件夹:
models/vae -
说明:部分 Checkpoint 内置 VAE;若替换 VAE,可能会带来色彩变化。
二、风格与微调类模型
3. LoRA(Low-Rank Adaptation)
-
作用:轻量化风格微调,为基础模型添加特定风格、人物、服饰等特征。比如“古风 LoRA”,画出来就是国风插画;“某明星 LoRA”,就能画出像明星的角色。
-
存放文件夹:
models/loras -
优点:文件小(几十 MB),加载快,灵活叠加。
-
场景:一键添加“二次元风格”、“特定明星”、“服饰主题”。
4. Embedding(文本嵌入 / Textual Inversion)
-
作用:通过“触发词”调用特定风格或人物。类似于提示词的封装,通过一个关键词,例如“猫”可以代表“一只可爱的,写实风格的猫”
-
存放文件夹:
models/embeddings -
例子:输入专用关键词,就能生成某种画风或人物特征。
三、控制类模型
6. ControlNet
-
作用:给生成过程加“约束”,确保构图、动作不跑偏。比如你想让人物保持同样姿势、建筑保持直线感,就靠它。
-
存放文件夹:
models/controlnet -
常见类型:
-
Canny 边缘 → 保留轮廓
-
Pose / OpenPose → 控制人体姿势
-
Depth / Normal → 保持三维空间感
-
-
场景:指定人物动作、复刻构图、保持物体结构。
7. T2I-Adapter / IP-Adapter
-
作用:轻量化的图像控制器,功能类似 ControlNet,但占用资源更少。
-
场景:风格迁移、参考图生成。
四、后处理与增强类模型
8. Upscaler / 超分辨率模型
-
作用:把小图变大图,清晰度不丢失,还能补出细节。
-
存放文件夹:
models/upscale_models -
典型模型:ESRGAN、4x-UltraSharp。
-
场景:将 512×512 的草图放大到海报级别。
9. 面部修复 / 细节增强模型
-
作用:专门修人脸的“畸形 bug”,让人物五官更自然。
-
常见工具:FaceDetailer、GFPGAN。
五、辅助理解类模型
10. CLIP & Embedding Encoder
-
作用:把用户输入的文字编码成一种“语义向量”。用于计算机理解。
-
存放文件夹:
models/clip -
典型模型:OpenAI CLIP,SigLIP。
11. 图像理解 / Caption 模型
-
作用:给图片自动生成描述文本,帮你反推 Prompt。
-
典型模型:Florence2、JoyCaption。
-
场景:分析别人的作品,快速提炼灵感。
在实际工作流中,通常是“先打底,再加风格,再控姿势,最后提质修图。”Checkpoint + VAE → LoRA / Embedding → ControlNet → Upscaler → 后处理
模型下载的3种方式:
-
自动下载
-
通过comfyUI管理器下载
-
通过第三方网站下载:
一、自动下载
如果模型下载的提示出现?而不是具体的大小。说明网络环境不通,需要自备科学上网环境。
如果不小心关闭了缺少模型的页面。ctrl+R 刷新一下工作流界面,就会出来了。
二、通过comfyUI管理器下载
comfyUI界面,点击manager -> Modal Manager
这个界面就是官方提供的模型列表。我们搜索下flux,就可以看到flux模型了。
三、通过第三方网站下载
国内推荐modelscope。
找到对应的模型,查看文件,下载对应文件放到文件夹中。
例如:
预告预告🎉
最近将要出一系列comfyUI的学习资料,带你手把手入门comfyUI。期待你的关注。
下一篇文档,我们来学习下基本的文生图节点。