ComfyUI的模型分类具体包括哪些成员,他们各自擅长什么?

956 阅读3分钟

图片

欢迎大家点赞转发,让更多的朋友了解AI绘画,了解comfyui.

类别:Chenkpoint(大模型)、LoRA(低秩适应模型)、VAE模型(自编码器)、Embeding(嵌入式向量模型)

图片

1.1 Chenkpoint(大模型):

Checkpoint 模型,又称 Ckpt 模型或大模型是一种深度学习模型。Checkpoint 翻译为中文叫检查点,之所以叫这个名字,是因为模型训练到关键位置时会进行存档,有点类似我们玩游戏时的保存进度,方便后面进行调用和回滚,比如官方的 v1.5 模型就是从 v1.2 的基础上调整得到的。

图片

SD1.5大模型:训练图集大多为512或者768。所以我们在用SD1.5模型生图的时候尺寸一般设置为512512、512768、768512 。过大的尺寸会造成多人等错误的情况发生。推荐(7681152)这个数值属于相对极限的数值,不容易出多人且又能获得一张相对较大尺寸的原始图。

SDXL大模型:训练集尺寸大多为1024,所以我们在用SDXL模型生图时,尺寸可以设置为1024以上,一般为:10241024,10801920等。更大的尺寸也就意味着更大的显存占用,所以SDXL的模型对于显存的要求要更高于SD1.5,推荐8G以上运行。

1.2 LoRA(低秩适应模型):

它允许在新任务上微调预训练模型,同时保持原始预训练模型的不变。LoRA 通过在预训练模型的输出和任务特定模型的输入之间引入一个低秩适配矩阵来实现这一点,从而最小化对原始预训练模型的影响。

lora模型通常用来指定特征,比如:人物形象,年龄,服装,风格等。可以多个lora混合使用,但是要注意控制权重。

图片

1.3 VAE模型(自编码器):

它是一个美化模型。VAE模型主要用于美化图片的色彩。很多主模型已经内置了这个功能。VAE 由两部分组成:编码器和解码器。编码器将输入数据编码为一个低维度的潜在向量,而解码器则将潜在向量解码为重建数据。VAE 通过最大化重建数据的概率来学习数据的潜在分布。

图片

1.4 Embedding(嵌入式向量模型):

Encoder(clip文本编码器)把我们输入的语言转换成了数值向量,来告诉计算机。这些向量不仅包含数值信息,还包含数据之间的关系和结构信息。它是一个嵌入模型。Embedding模型的主要作用是调教文本理解能力。通常用于自然语言处理、计算机视觉和推荐系统等领域。嵌入模型将输入数据(如单词、图像或用户)映射到固定大小的向量,这些向量可以用于后续的机器学习任务,如分类、聚类和预测。

图片

1.5 Hypernetwork模型(超网络模型):

Hypernetwork模型的主要功能是定制生成图片的画风和风格。通过使用Hypernetwork模型,可以对生成的图片进行更加细致的风格调整和定制化处理。图片

资源下载

为了方便大家入门,我也整理了一批工作流,包括基本的文生图、图生图、ControlNet的使用、视频的处理等等,发消息“工作流”到公/众\号“极客界AI”,即可领取。

image.png

点赞 + 关注 + 收藏 = 学会了