‌​⁢⁢⁤⁢​⁤⁤⁢⁣‬⁢‬‍​​‌⁣⁤​​​​⁢⁣​‌⁣‍‍⁤⁡​⁣‌‌​​‬⁢‌​【2025-comfyUI教程】初步了解模型分类?以及3种模型下载方法

203 阅读4分钟

为了便于理解,先大致解释下文生图的工作原理,便于理解后面的内容。

文生图的大致原理,是由扩散模型,根据一定的算法,在潜空间,一步步将一个无序的像素点(噪声),转成某种图像风格的像素。转换的过程都是在潜空间,潜空间的数据需要通过VAE解码成,人可见的图片。

转换的过程,可以理解成,一个公式,根据参数的转换过程。如果初始参数不变,生成的结果是固定的。也就是可以稳定的生成同一张图片。

一个文生图的基本配置如下:

模型是什么?如何分类?

模型是决定画面风格、细节质量和生成可控性的核心要素。不同的模型在功能、作用、市场场景都有不同,他们彼此分工又互相配合。

ComfyUI 的模型大致可以以分为 五类

  1. 基础生成类(Checkpoints、VAE)

  2. 风格与微调类(LoRA、Embedding、Hypernetwork)

  3. 控制类(ControlNet、Adapter 系列)

  4. 后处理增强类(Upscaler、FaceDetailer)

  5. 辅助理解类(CLIP、Caption 模型)

一、基础生成类模型

1. Checkpoints(基础模型)

  • 作用:决定生成图像的整体风格和质量,相当于“画师”。例如有的是二次元风格、有的出图更加真实。

  • 存放文件夹models/checkpoints

  • 典型模型:Stable Diffusion 1.5、2.1、XL,DreamShaper,Waifu Diffusion。

  • 特点:体积大(2~7GB),覆盖通用场景。

2. VAE(变分自编码器)

  • 作用:最后把“潜空间图像”转化为真正可见的图片。转化的过程,可以调节色彩表现,避免偏色、发灰。换 VAE,就像给照片套了滤镜。

  • 存放文件夹models/vae

  • 说明:部分 Checkpoint 内置 VAE;若替换 VAE,可能会带来色彩变化。

二、风格与微调类模型

3. LoRA(Low-Rank Adaptation)

  • 作用:轻量化风格微调,为基础模型添加特定风格、人物、服饰等特征。比如“古风 LoRA”,画出来就是国风插画;“某明星 LoRA”,就能画出像明星的角色。

  • 存放文件夹models/loras

  • 优点:文件小(几十 MB),加载快,灵活叠加。

  • 场景:一键添加“二次元风格”、“特定明星”、“服饰主题”。

4. Embedding(文本嵌入 / Textual Inversion)

  • 作用:通过“触发词”调用特定风格或人物。类似于提示词的封装,通过一个关键词,例如“猫”可以代表“一只可爱的,写实风格的猫”

  • 存放文件夹models/embeddings

  • 例子:输入专用关键词,就能生成某种画风或人物特征。

三、控制类模型

6. ControlNet

  • 作用:给生成过程加“约束”,确保构图、动作不跑偏。比如你想让人物保持同样姿势、建筑保持直线感,就靠它。

  • 存放文件夹models/controlnet

  • 常见类型

    • Canny 边缘 → 保留轮廓

    • Pose / OpenPose → 控制人体姿势

    • Depth / Normal → 保持三维空间感

  • 场景:指定人物动作、复刻构图、保持物体结构。

7. T2I-Adapter / IP-Adapter

  • 作用:轻量化的图像控制器,功能类似 ControlNet,但占用资源更少。

  • 场景:风格迁移、参考图生成。

四、后处理与增强类模型

8. Upscaler / 超分辨率模型

  • 作用:把小图变大图,清晰度不丢失,还能补出细节。

  • 存放文件夹models/upscale_models

  • 典型模型:ESRGAN、4x-UltraSharp。

  • 场景:将 512×512 的草图放大到海报级别。

9. 面部修复 / 细节增强模型

  • 作用:专门修人脸的“畸形 bug”,让人物五官更自然。

  • 常见工具:FaceDetailer、GFPGAN。

五、辅助理解类模型

10. CLIP & Embedding Encoder

  • 作用:把用户输入的文字编码成一种“语义向量”。用于计算机理解。

  • 存放文件夹models/clip

  • 典型模型:OpenAI CLIP,SigLIP。

11. 图像理解 / Caption 模型

  • 作用:给图片自动生成描述文本,帮你反推 Prompt。

  • 典型模型:Florence2、JoyCaption。

  • 场景:分析别人的作品,快速提炼灵感。

在实际工作流中,通常是“先打底,再加风格,再控姿势,最后提质修图。”Checkpoint + VAE → LoRA / Embedding → ControlNet → Upscaler → 后处理

模型下载的3种方式:

一、自动下载

如果模型下载的提示出现?而不是具体的大小。说明网络环境不通,需要自备科学上网环境。

如果不小心关闭了缺少模型的页面。ctrl+R 刷新一下工作流界面,就会出来了。

二、通过comfyUI管理器下载

comfyUI界面,点击manager -> Modal Manager

这个界面就是官方提供的模型列表。我们搜索下flux,就可以看到flux模型了。

三、通过第三方网站下载

国内推荐modelscope。

找到对应的模型,查看文件,下载对应文件放到文件夹中。

例如:

预告预告🎉

最近将要出一系列comfyUI的学习资料,带你手把手入门comfyUI。期待你的关注。

下一篇文档,我们来学习下基本的文生图节点。