Stable Diffusion 笔记二 WebUI

418 阅读6分钟

主界面一般包括7大区域,从上往下依次为:

  • 快捷设置区域
  • 主功能菜单区域
  • “提示词”区域
  • 参数设置区域
  • 附加功能区域
  • 图片生成区域
  • 页尾版本信息区域

image.png 基于1.9.3版

1.快捷设置区域

主要提供针对Stable Diffusion Web UI软件使用界面的快捷设置。可以将Setting之中提供的若干项快捷设置勾选出来,显示在这个区域,以方便在使用软件过程中快速切换设置,一般常用的有:sd_model_checkpoint、sd_vae、CLIP_stop_at_last_layers

image.png

可以在主菜单中的Settings(设置),左侧菜单选取最下方的Show all pages(显示所有页面)中选择 image.png 一般不建议修改。

  • sd_model_checkpoint,大模型,是文生图所需要的大模型的选取菜单,方便在生成图像时切换不同的模型;

  • 外挂VAE(Variational autoencoder),中文名叫“变分自编码器”,简单可以理解为是一种画面饱和度的滤镜与画面微调功能。有些大模型是需要用到VAE来调整的,有些则不需要。

  • CLIP_stop_at_last_layers,简写为Clip skip(Clip跳过层)。指的是控制图像生成过程中CLIP模型的使用层数。 可通过滑块取值从1-12。由于 CLIP是通过计算文本和图像之间的相关性来实现的,因此如果跳过太多的步骤,文本对生成图像的匹配准确度会逐渐降低。一般我们默认都是用1或2。

2.主功能菜单区域

image.png

主功能项,以标签方式展现;默认打开软件后显示为第一项tex2img(文生图),文生图也是我们用到的最多最主要的功能,其他还有img2img(图生图)、Extras(附加功能)、PNG info(图片信息)、Checkpoint Merger模型合并、Train训练、Settings(设置)、Extensions(扩展)

3.“提示词”区域

image.png Stable Diffusion WebUI 的重点频繁使用区域,其中有四个小区域:

  1. 正向提示词区:专门填写正向提示词的输入区域,可配合Lora(想出现的效果)
  2. 反向提示词区:输入反向提示词的区域(不想出现的效果)
  3. 生成按钮
  4. “提示词”功能按钮区:提取图片参数、清空提示词、提示词预设

4.参数设置区域

参数设置区域里包括一些基础的AI生图参数(文生图与图生图的这个区域大体一样),以及模型的选择: image.png

文生图的参数设置区域主要参数:采样迭代步数、采样方法、调度器(Schedule type)、高清修复、Refiner修复、宽高;生成批次及数量、随机种子、提示词相关性

采样器(Sampler)、调度器(Schedule type)、迭代步数

采样器版本较多,推荐Euler a(更细腻),和 DDIM(适合局部重绘),新手推荐使用 Euler a。Euler a 富有创造力,不同步数可以产出不同的图片。调太高步数 (>30) 效果不会更好。DDIM 收敛快,但效率相对较低,因为需要很多 step 才能获得好的结果,适合在局部重绘时候使用。调度器新手一般选择自动。多数情况迭代步数20-30步就可以了。

高清修复、Refiner精炼器

image.png

通过神经网络对图像在更高尺寸上再生成,所以放大后的图与原图细节会有略微不同。Upscaler 放大算法比较多,一般推荐Latent系列,比较中庸,

image.png 精炼器的作用是可以允许你用2个模型生成一张图片。主模型选择了A,那么在 Refiner 选择另一个B模型,并且 切换时机 设置了 0.8,意思就是前80%使用A模型绘图,剩下的20%使用B模型绘图。

种子数、 CFG Scale 提示词相关性

种子值就是种子数,默认是 -1,也就是每次生成图片会随机分配一个 seed 数。

种子数这项设置很重要,即使使用相同的提示词和参数,但种子数不一样,生成的图像也不一样。

如果提示词和所有参数都一样,种子数也一样,那么生成的图像也会一模一样。

CFG Scale 提示词相关性是经常会用到的概念,它代表着要生成出的图像与你输入的“提示词”之间的语义关联程度。数值越大关联程度越高。对于512的小图片CFG数值超过10可能会导致过度拟合而产生图片崩坏问题。所以一般建议设置在5-9之间。大图片推荐10左右。

模型

选择添加各类模型 包括四种

  • Textual Inversion (TI)(Embeddings)、
  • Hypernetwork
  • Checkpoints
  • LoRA

image.png

(TI)(Embeddings)

Textual Inversion 直译就是“文本翻转”,但实际上并不是说把文本进行了翻转的意思,而是将几张图片进行一个“新概念词汇”的关联训练,形成一个或 Embedding 向量,以便在一个大模型中进行个性化的微调。

Hypernetwork

Hypernetwork 超网络是一种模型微调技术,最初是由 NOVA AI 公司开发的。它是一个附属于 Stable Diffusion 稳定扩散模型的小型神经网络,是一种额外训练出来的辅助模型,用于修正SD稳定扩散模型的风格。 , Hypernetwork 超网可以在不修改主模型权重的情况下,通过在 U-Net 噪声预测器中的交叉注意层之前插入一个小的附属网络来拦截并修改信息,以达到微调模型输出的效果。

Checkpoints

大模型,无需配合其他模型。模型一般为 .ckpt 或 .safetensors 为扩展名的文件,把它们放在 stable-diffusion-webui/models/Stable-diffusion 目录中,使用时无需重启 WebUI,在基础模型选择下拉框处刷新后选择即可开始使用。并且你无需在提示词中有任何特殊的公式语句来描述该模型。可以附加其他 LoRA 模型来进行叠加的风格变换。

LoRA

LoRA 原本是 Low-Rank Adaptation of Large Language Models 的缩写 ,译为大语言模型的低阶适应,LoRA 在 Stable Diffusion 中的本质是,用来对图像表示与图像描述提示词相关联的 U-Net 的交叉注意层( cross-attention layers)的微调,其尺寸通常比基础模型小很多,但需要与基础模型一起使用以达到效果。

5.图片生成区域

作品呈现的区域

image.png

下方按钮可进行保存重绘等操作

6.附加功能区域

image.png

插件脚本聚集区域,有一个SD中最著名的插件,也是我们以后使用频率最多的功能——ControlNet。ControlNet可以让我们很好地对Stable Diffusion进行精准控制,尤其是人物的姿态,场景的深度等等。

image.png

7.页尾版本信息区域

版本信息与依赖环境等
image.png