SD 参数
1. prompt
正向提示词:文生图中根据提示词描述生成相应图片;图生图中根据提示词描述的特点将图片转换成另一张新的图片。 prompt 描述可以非常详细描述,也可以比较大概的描述。可以把一张图分解为许多元素,例如一个人分解成头发,眼睛,嘴巴,鼻子。prompt 描述越详细,越贴合需求。
提示词生成网址: Ai画廊 - AI关键词生成器 (aigallery.top)
prompt 基础语法
分割符号
- ',' 作为提示词的分割符号:有一定的权重含义,同样的提示词在逗号前比逗号后的权重更高。
- and 作为提示词的分割符号:功能类似逗号,但不会像逗号一样区分出前后权重,用AND链接的词可使用冒号标记其权重。用于将多个词缀聚合于一个提示位。
- '|' 作为提示词的分割符号:趋向于融合,AND趋向于特征明显的共存
- '+' 作为提示词的分割符号:
组合符号
- [from:to:step] 提示词按顺序在 step 前后分别生效
- [to:step] 提示词在 step 之后开始生效
- [from::step] 提示词在 step 之前开始生效
- [xx|xx|xx|xx|xx] 为一种在平等权重下融合多个提示词生成单个元素
- 当 step 为小于1的值且不为负数时,则意味着参与总步骤数中的百分比
- 当 step 为大于1的值,则意味着生成多少步,而不是总步骤数中的百分比
权重标识
- "()" 括号增加权重,权重将会乘以1.1;"(())" 双括号 会叠加权重,在双括号的情况下,权重为1.21
- ":" 冒号在括号中词缀后冒号加数字,代表该词缀的权重数值 (1girl:0.75) 单人女孩词缀,权重为0.75大部分情况下,操作权重用括号即可。
- "[]" 中括号减少权重,本身权重除以1.1;中括号中数字权重不起作用,若想百分比减少权重,应当使用()括号,外加小数代表权重
prompt 基本结构
通常将一幅画的描述归纳为一个基本范式:质量风格+主体说明+场景描述。
质量风格
-
图像质量
- HDR, UHD, 8K:(HDR、UHD、4K、8K和64K)这样的质量词可以带来巨大的差异提升照片的质量
- best quality:最佳质量
- masterpiece:杰作
- ultra-fine painting:超精细绘画
- sharp focus:聚焦清晰
- extreme detail description:极其详细的刻画
- Professional:加入该词可以大大改善图像的色彩对比和细节
- physically-based rendering:基于物理渲染
- Bokeh:虚化模糊了背景,突出了主体,像 iPhone 的人像模式
- High resolution scan:让你的照片具有老照片的样子赋予年代感
- (EOS R8, 50mm, F1.2, 8K, RAW photo:1.2):摄影师对相机设置的描述
- Polaroid, long exposure:宝丽来,长时间曝光
- monochrome, GoPro, fisheye, bokeh, photo, dslr, high quality, film grain, Fujifilm XT3:单色,GoPro,鱼眼,背景虚化,照片,单反,高质量,胶片颗粒,Fujifilm XT3
-
图像风格
- Portrait:肖像画风,用于生成脸部或者头像
- Landscape:风景画,
- Sketch:素描
- Painting:绘画
- Digital painting:数字艺术风格
- Concept art:2D 插图风格
- vray: 3D 渲染物体,风景和建筑物
- unreal engine: 3D 写实与细节
- Ultra realistic illustration:画风真实和逼真,用于生成人物
- Underwater portrait:模拟水下的人物特写,头发会飘起来
- Horror:恐怖画
- Anime:动漫画
- Photography:摄影
- Concept artists:概念艺术家
- Video game:视频游戏
- hyperrealistic: 超现实主义,会增加细节和分辨率
- pop-art:波普艺术风格
- Modernist:现代派,色彩鲜艳和高对比度
- art nouveau:新艺术风格,追求平面化
- pixabay: Commercial stock photo style
- artstation: Modern illustration, fantasy
-
艺术家
- John Collier: 19 世纪肖像画家
- Stanley Artgerm Lau: 偏写实和现代风格
- John Singer Sargent: 擅长女性肖像,偏印象派
- Alphonse Mucha: 擅长画平面肖像
- pixiv: Japanese anime style
主体说明
- 主体
- Person, animal, landscape:人,动物,风景
- 服装
- 行动
- Dancing, sitting, surveil:跳舞,坐着,监视
- standing, sitting, eating, dancing, surveil:站立、坐下、进食、跳舞、监视
- 说明
- Beautiful, realistic, big, colourful:Beautiful, realistic, big, colourful
- Cosy, energetic, romantic, grim, loneliness, fear:舒适、活力、浪漫、冷酷、孤独、恐惧
- Fabric, wood, clay, realistic, illustration, drawing, digital painting:织物、木材、粘土、逼真、插图、绘画、数字绘画、
- photoshop
场景描述
-
光照
- Studio lighting:添加演播室的灯光,可以为图像添加一些漂亮的纹理
- dramatic: Increases the emotional expressivity of the face. Overall substantial increase in photo potential / variability. +1 for variability, important for getting the max hit.
- silk: Add silk to clothing
- expansive: More open background, smaller subject
- low angle shot: shot from low angle
- god rays: sunlight breaking through the cloud
- psychedelic: vivid color with distortion
- cinematic lighting, dark
- soft lighting:柔光
- Soft, ambient, neon, foggy, misty:柔和的,环境的,霓虹灯的,有雾的,朦胧的
-
色调
- Vivid Colors:给图片添加鲜艳的色彩,可以为你的图像增添活力
- iridescent gold: shinny gold
- silver: silver color
- vintage: vintage effect
- Pastel, vibrant, dynamic lighting
-
环境
- outdoor:
- underwater:
- in the sky:
- at night:
BREAK是指将CLIP的自然语言处理中被视为无意义的填充字符输入到第75个标记 特别是在简单的单词排列(所谓的WD・Danbooru・NOVEL AI风格)中
Adding a
BREAKkeyword (must be uppercase) fills the current chunks with padding characters. Adding more text afterBREAKtext will start a new chunk.
2. Negative prompt
反向提示词:与 prompt 相反,反向加权,减低某些元素出现的概率。
低质量
- low quality,Disfigured hands, poorly drawn face, out of frame, bad anatomy, signature, low contrast, overexposed:低质量、畸形的手、画得不好的脸、超出画框、解剖错误、签名、低对比度、过度曝光
不合法
- illegal nsfw, weapon, blood, guro,without cloth:不适宜在工作场所查看的内容,武器,血液, 血腥、暴力,裸体
主体
- 手
- mutated hands and fingers: 变异的手和手指
- poorly drawn hands: 手部画得不好
- malformed hands: 畸形的手
- 脸
- disfigured: 毁容
- poorly drawn face: 脸部画得不好
- ugly: 丑
- 肢体
- extra limb: 多余肢体
- missing limb:缺少肢体
- floating limbs: 漂浮的四肢
- disconnected limbs: 肢体不连贯
- 身体
- long neck: 长颈
- long body: 身体长
- deformed:畸形的
- bad anatomy: 解剖不良
- mutated: 变异的
- out of focus: 虚焦
3. with&height
生成图片分辨率的宽与高。分辨率越大,计算量越大,耗时越久。常见分辨率:512x512; 768x768
4. CFG scale
生成图片与提示词描述的相关程度。值越小越偏离提示词描述,值越大越符合提示词描述。一般取值 7 。
5. Denoising strength
理解成原图片的保留程度,加的噪声少,原图片部分多,加的噪声多,原图片部分少。值越大越偏离原图片,值越小越符合原图片。
6. Seed
随机数种子,作为确定扩散初始状态的神经网络的权重参数。-1 是生成一个随机数。
- 当使用完全相同的提示和参数但更改种子编号时,会得到非常不同的输出图像
- 保持相同的种子编号但通过添加单个单词修饰符来更改文本提示,则可以更改输出图像而不会显著改变它们的总体外观或调色板
7. Sampling method
采样方法:在每个步骤中都会生成一张新的采样后的图像,整个去噪的过程就是采样。使用的采样方式,即为采样方式或者采样器。
K-diffusion 指代Katherine Crowson's k-diffusion项目中实现的主要基于Jiaming Song等人的论文、Karras等人的论文以及基于Cheng Lu等人的论文论文中提及的的相关采样器。当前常用的采样器中,除了DDIM、PLMS与UniPC之外的采样器均来自于k-diffusion。
经典ODE求解器
- Euler采样器:欧拉采样方法,基于 Karras 论文,源于K-diffusion的项目实现,采样器设置页面中的 sigma noise,sigma tmin和sigma churn这三个属性会影响到它;是比较成熟的一种采样方法,在风格转换任务上,特别是现实转图方面效果比较稳定。
- Heun采样器:欧拉的一个更准确但是较慢的版本。基于Karras论文,源于K-diffusion的项目实现,受采样器设置页面中的 sigma参数影响;
- LMS采样器:线性多步调度器(Linear multistep scheduler),与欧拉采样器速度相仿,但是更准确。源于K-diffusion的项目实现;
DPM与DPM++
DPM(扩散概率模型求解器)这一系列的采样器于2022年发布,代表了具有类似体系结构的求解器系列。 由于DPM会自适应调整步长,不能保证在约定的采样步骤内完成任务,整体速度可能会比较慢。对Tag的利用率较高,在使用时建议适当放大采样的步骤数以获得较好的效果。 DPM++是对DPM的改进,DPM2采用二阶方法,其结果更准确,但是相应的也会更慢一些。
- DPM++ 2M: 基于Cheng Lu等人的论文(改进后的版本),在K-diffusion实现的2阶多步采样方法,在Hagging face中Diffusers中被称作已知最强调度器,在速度和质量的平衡最好。这个代表M的多步比上面的S单步在采样时会参考更多步,而非当前步,所以能提供更好的质量。但也更复杂。
- DPM++ SDE: 基于Cheng Lu等人的论文的,DPM++的SDE版本,即随机微分方程(stochastic differential equations),而DPM++原本是ODE的求解器即常微分方程(ordinary differential equations),在K-diffusion实现的版本,代码中调用了祖先采样(Ancestral sampling)方法,所以受采样器设置中的ETA参数影响;
- DPM2 是一种神奇的方法,它旨在改进 DDIM,减少步骤以获得良好的结果。它需要每一步运行两次去噪,它的速度大约是 DDIM 的两倍,生图效果也非常好。但是如果你在进行调试提示词的实验,这个采样器可能会有点慢了。这个是Katherine Crowson在K-diffusion项目中自创的,灵感来源Karras论文中的DPM-Solver-2和算法2,受采样器设置页面中的 sigma参数影响;
祖先采样器
名称中带有a标识的采样器表示这一类采样器是祖先采样器。这一类采样器在每个采样步骤中都会向图像添加噪声,采样结果具有一定的随机性。
- Euler a:使用了祖先采样(Ancestral sampling)的Euler方法,受采样器设置中的eta参数影响;适合插画,tag利用率仅次于DPM2和DPM2 a,环境光效弱,构图有时很奇葩
- DPM2 a:使用了祖先采样(Ancestral sampling)的DPM2方法,受采样器设置中的ETA参数影响;几乎与DPM2相同,对人物可能会有特写
- DPM++ 2S a:基于Cheng Lu等人的论文(改进后,后面又发表了一篇),在K-diffusion实现的2阶单步并使用了祖先采样(Ancestral sampling)的方法,受采样器设置中的eta参数影响;Cheng Lu的github中也提供已经实现的代码,并且可以自定义,1、2、3阶,和单步多步的选择,webui使用的是K-diffusion中已经固定好的版本。细节可以参考Cheng Lu的github和原论文。
Karras Noise Schedule
带有Karras字样的采样器,最大的特色是使用了Karras论文中建议的噪音计划表。主要的表现在于噪点步长在接近尾声时会更小,有助于图像的质量提升。 DPM2 Karras,DPM2 a Karras,DPM++ 2S a Karras,DPM++ 2M Karras,DPM++ SDE Karras这些含有Karras名字的采样方法和上面LMS Karras意思相同,都是相当于使用Karras noise schedule的版本;
- LMS Karras:基于Karras论文,运用了相关Karras的noise schedule的方法,可以算作是LMS使用Karras noise schedule的版本;会大改成油画的风格,写实不佳
- DPM++ 2S a Karras:使用Karras noise schedule的版本;
DDIM与PLMS(已过时,不再使用)
DDIM(去噪扩散隐式模型)和PLMS(伪线性多步方法)是伴随Stable Diffusion v1提出的 SD 原始采样方法,DDIM也是最早被用于扩散模型的采样器。PLMS是DDIM的一种更快的替代方案。当前这两种采样方法都不再广泛使用。
- DDIM “官方采样器”随latent diffusion的最初repository一起出现, 基于Jiaming Song等人的论文,也是目前最容易被当作对比对象的采样方法,它在采样器设置界面有自己的ETA;对于纯生成任务效果相对较好。其他方法的karras改进型效果也可以,但是非改进型效果往往不尽人意。
- PLMS 是 Euler 的衍生,可以更好地处理神经网络结构中的奇异性。同样是元老,随latent diffusion的最初repository一起出现;
UniPC
UniPC(统一预测校正器),一种可以在5-10个步骤中实现高质量图像生成的方法。基于Wenliang Zhao等人的论文,应该是目前最快最新的采样方法,10步就可以生成高质量结果;
- UniPC 效果较好且速度非常快,对平面、卡通的表现较好,推荐使用。
- UniPC variant: bh1和bh2和vary_coeff是三种变体, 至于vary_coeff这个,作者在论文中实验对比了在“无条件”的和bh1和bh2的区别,即bh1在5,6步表现最好,vary_coeff在7,8或9表现最好,10步以上还是bh2。
- UniPC skip type:
采样参数
eta和sigma都是多样性相关的,但是它们的多样性来自步数的变化,追求更大多样性的话应该关注seed的变化,这两项参数应该是在图片框架被选定后,再在此基础上做微调时使用的参数。
- eta参数
eta (noise multiplier) for DDIM只作用DDIM,不为零时,DDIM在推理时图像会一直改变,生成的图像不会最终收敛; eta (noise multiplier) for ancestral samplers作用于名字后缀带a和SDE的所有采样器,不为零时,生成的图像也不会收敛; Eta noise seed delta也是seed值,在eta不为零时起到固定初始值,这样你就可以使用相同值还原某些其它人使用了对应eta值的图片。 eta为0,除了Euler a和DDIM还会有少量的变化外,其余带a的采样方法,带SDE的,以及DPM fast和DPM adaptive都会收敛稳定
- sigma参数
sigma包含:sigma churn,sigma tmin,sigma noise,仅对euler, heun和dpm2这三个采样器有效 sigma churn:决定sigma noise值如何被使用,如果churn值为0,即使noise值不为0,也没有任何效果。 sigma tmin:决定最小值范围的限制,可以为0 sigma noise:噪声本身的数值大小(注意,churn>0时,噪声值本身才有意义)
8. Sampling steps
采样步长,这个值不是越大越好,也不是越小越好。太小采样的随机性很高,太大采样的画面内容更细致,但效率低。一般默认值 20 或者 30.
9. Batch count, Batch size
生成图片的批次和每批生成的图片数量
10. Tiling
CUDA 的矩阵乘法优化,提高出图速度和降低显存占用。
11. Restore face
优化面部,通过调用一个神经网络模型对面部进行修复。对于人物脸部,推荐配合 CodeFormer 和 GFPGAN 使用
- GFPGAN: 腾讯开发的人脸复原算法,利用生成式脸部先验应用到真实世界的人脸复原中。这些先验隐式封装在一个预训练的 GAM 模型中。
使用:可以在设置界面选择:CodeFormer 和 GFPGAN 都是面部修复的AI模型,可以修改权重值。 GitHub - TencentARC/GFPGAN: GFPGAN aims at developing Practical Algorithms for Real-world Face Restoration. 模型:GFPGANv1.3.pth
Downloading: "https://github.com/xinntao/facexlib/releases/download/v0.1.0/detection_Resnet50_Final.pth" to D:\workspace\project\stablediffusion\sdwebui\sdwebui-src\models\GFPGAN\detection_Resnet50_Final.pth
- CodeFormer: 与 GFPGAN 同样是人脸复原算法。南洋理工大学S-Lab实验室发表在
NeurIPS 2022的一篇著作。这是一种基于Transformer的预测网络,能够对低质量人脸的全局组成和上下文进行建模以进行编码预测,即使在输入信息严重缺失的情况下也能复原出与目标人脸非常接近的自然人脸图像
使用:可以在设置界面选择:CodeFormer 和 GFPGAN 都是面部修复的AI模型,可以修改权重值。 源码:github.com/sczhou/Code… 模型:detection_Resnet50_Final.pth parsing_parsenet.pth 两个预训练模型参数权重文件;Release CodeFormer V0.1.0 Release · sczhou/CodeFormer · GitHub
12. Highres.fix && Upscaler
使用两个步骤进行图片生成。首先生成分辨率较小的图片,然后在不改变构图的情况下,再放大添加细节生成目标分辨率。
- 放大算法中,Latent 在许多情况下效果不错,但重绘幅度小于 0.5 后就不甚理想。ESRGAN_4x、SwinR 4x 对 0.5 以下的重绘幅度有较好支持。
- Hires step 表示在进行这一步时计算的步数。
- Denoising strength 一般来讲阈值是 0.7 左右,超过 0.7 和原图基本上无关,0.3 以下就是稍微改一些。实际执行中,具体的执行步骤为 Denoising strength * Sampling Steps。
在txt2img 和Extras 选项卡都可以直接使用,在 Extras 下可以选择不同的 upscaler 模型: How to use AI upscaler to improve image details - Stable Diffusion Art (stable-diffusion-art.com)
- latent 系列的放大器工作在潜空间(latent space) ,在 denoising strength 低于 0.5 时容易出现图片模糊,高于 0.5 会较多偏离原图片。建议 denoising strength 在 0.5 以上。
- 非 latent 系列的放大器不工作在潜空间(latent space)。
- lanczos, nearest 是传统算法,不推荐使用。
- ESRGAN_4x:Enhanced Super-Resolution Generative Adversarial Networks,基于SRGAN改进而来智能放大图片的模型, 适用于照片写实类(可能出现细节过于锐利的效果,但有些人喜欢这样的风格),R-ESRGAN 4x+(全能型),R-ESRGAN 4x+ Anime6B(适用于二次元),R-ESRGAN-General-WDN-4xV3(适用于厚涂插画)github.com/xinntao/Rea…
在 SD 中安装新的 ESRGAN upscaler 模型,可以从该网址 upscaler model database 下载模型,(Siax
Remacri,BSRGAN)并放入下面路径:
D:\workspace\project\stablediffusion\sdwebui\sdwebui-src\models\ESRGAN
Downloading: "https://github.com/cszn/KAIR/releases/download/v1.0/ESRGAN.pth" to D:\workspace\project\stablediffusion\sdwebui\sdwebui-src\models\ESRGAN\ESRGAN_4x.pth
Downloading: "https://github.com/xinntao/Real-ESRGAN/releases/download/v0.1.0/RealESRGAN_x4plus.pth" to D:\workspace\project\stablediffusion\sdwebui\sdwebui-src\models\RealESRGAN\RealESRGAN_x4plus.pth
- SwinIR_4x: Image Restoration Using Swin Transformer SwinIR 预训练模型实现图片的超分, 需要表现光影的厚涂插画表现优于照片和二次元的图片放大,但逊于R-ESRGAN-General-WDN-4xV3 github.com/JingyunLian… SwinIR (realSR_BSRGAN_DFOWMFC_s64w8_SwinIR-L_x4_GAN)
- LDSR照片写实类图片表现很好,插画和二次元图片不行,而且体积很大,速度很慢(好奇的话,可以尝试)
VAE
包括Encoder编码器和Decoder解码器,用于图像从像素空间到潜空间(latent space)的转换,或者叫降维或升维,由于用于降维的VAE Encoder 只在训练模型的阶段使用,推理过程(图像生成)只需要VAE Decoder解码器
那些比较流行预训练的模型一般都是内置了训练好的VAE模型的,不用我们再额外挂载也能做正常的推理生成(挂载后生成图像的效果会有一点点细微的区别),此时VAE pt文件的作用就像HDR ,增加一点点图片色彩空间之类的一些自定义模型
可如果一些预训练模型文件不内置VAE(或训练他们自己的VAE,此时通常会在他们的模型发布说明中告诉你从哪得到他们的VAE)。我们就必须给它找一个VAE挂载上去,用来将推理时反向扩散最后生成的 denoised latents 转换回图像格式,否则webui里最后生成输出给我们的就是类似彩噪的潜在表征(latents),此时VAE pt文件的作用就像解压软件 ,为我们解压出肉眼友好可接受的图像.
webUI中有两种挂载VAE模型文件的方法
- 改名为 <model 前缀>.vae.pt 和 model 放一起
- 将VAE文件 放到 VAE 文件夹然后在设置中选择
ControlNet
ControlNet是斯坦福大学研究人员开发的Stable Diffusion的扩展,使创作者能够轻松地控制AI图像和视频中的对象。它将根据边缘检测、草图处理或人体姿势等各种条件来控制图像生成。ControlNet可以概括为一种简单的稳定扩散微调方法。
在ControlNet Image复选框中,有几个选项:
- Enable :选中此框以启用ControlNet。
- Invert Input Color:用于检测用户上传的图像。预处理器和模型通常需要在黑色图像上使用白线来检测(也就是灰度图)。但如果你的图是白色图像上有一条黑线,可以使用这个工具来切换颜色。
- RGB to BGR :用于检测用户导入图像中的颜色信息。有时图像中的颜色信息可能与扩展所期望的不同。如果您正在使用“法线映射”,则可以跳过此步骤
- Low VRAM:这将减缓ETA进程,但有助于使用更少的计算空间(显存小于6 GB VRAM建议使用)
- Guess Mode:ControlNet自动识别图像(不需要提示和负面提示)与选定的预处理器,但是这个效果不一定好
- Canvas Width 和 Canvas Height 提供手动创建绘图或草图以,不上传任何图像(最好使用 Scribble 预处理器以获得良好的输出)。 它会调整空白画布的大小来进行绘制,不会影响上传的原始图像。
- “Preview Annotator Result”能够快速查看选择的预处理器是如何将上传的图像或绘图转换为 ControlNet 的检测图。这对于在渲染输出图像之前尝试各种预处理器特别有用,可以节省我们的时间。 如果要删除预览图像,可以单击“Hide Annotator Result”选项。
Preprocessor 和 Model 是 ControlNet 的主要选项。 根据所需的输出,用户可以选择相应的控制方法。 每个预处理器都有自己的模型,模型的设计和命名都是一样的。但是它并不限制你混合和匹配所有的预处理器和模型,但是混合多了就会产生负面效果,所以最好使用更加匹配的模型并且越少越好。 下面举例说明如何使用它。
1. Canny边缘检测
Canny通过使用边缘检测器创建高对比度区域的轮廓来检测输入图像。线条可以捕捉到非常详细的信息,但如果你的图像背景中有一些物体,它很可能会检测到不需要的物体。所以背景中物体越少效果越好。用于此预处理器的最佳模型是control\_sd15\_canny。
2. HED (Holistically-Nested Edge Detection)
Hed可以在物体周围创建清晰和精细的边界,输出类似于Canny,但减少了噪声和更柔软的边缘。它的有效性在于能够捕捉复杂的细节和轮廓,同时保留细节特征(面部表情、头发、手指等)。Hed预处理器可用于修改图像的风格和颜色。用于此预处理器的最佳模型是control\_sd15\_hed。
3. OpenPose
这个预处理器生成了一个基本的骨骼火柴人形象。 这种技术被广泛采用,因为多个 OpenPose 骨架可以组合成一个图像,这有助于引导稳定扩散生成多个一致的主题。 骨架图有很多关节点,每个点代表如下图所示
4. Depth & Depth Leres
这个预处理器有助于生成输入图像的深度估计。深度通常用于控制图像内物体的空间定位。浅色区域意味着它离用户更近,而深色区域则离用户更远。
在大图像时它可能会丢失图像内部的细节(面部表情等)。一般会与control\_sd15\_depth模型组合使用。Midas Resolution函数用于增加或减少detectmap中的大小和细节级别。它的级别越高,将使用更多的VRAM,但可以生成更高质量的图像,反之亦然。
Depth Leres有与Depth 相同的基本概念,但在地图中包含更广泛的范围。但有时它会从图片中捕获了太多信息,可能会生成与原始图像略有不同的图像。所以最好先试用两种预处理器,然后决定哪一种。
Downloading: "<https://cloudstor.aarnet.edu.au/plus/s/lTIJF4vrvHCAI31/download>" to D:\workspace\project\stablediffusion\sdwebui\sdwebui-src\models\leres\download
5. Segmentation
分割预处理器检测并将上传的图像分割为同一图像内的段或区域。该模型在生成一组新的图像时,将detectmap图像应用于文本提示。用于此预处理器的最佳模型是control_sd15_seg。
Downloading: "https://huggingface.co/lllyasviel/ControlNet/resolve/main/annotator/ckpts/upernet_global_small.pth" to D:\workspace\project\stablediffusion\sdwebui\sdwebui-src\models\uniformer\upernet_global_small.pth
6. Scribble
涂鸦的目的是从简单的黑白线条画和草图生成图像。用户也可以使用“Canvas”选项创建特定大小的空白画布,用于手动素描(也可以直接上传图像)。如果草图和绘图由白色背景上的黑线组成,则需要选中“Invert Input Color”复选框。用于这个预处理器的最佳模型是control_sd15_scribble。
Downloading: "https://huggingface.co/lllyasviel/Annotators/resolve/main/table5_pidinet.pth" to D:\workspace\project\stablediffusion\sdwebui\sdwebui-src\models\pidinet\table5_pidinet.pth
7. Normal map
法线图使用了三种主要颜色(红、绿、蓝),通过不同的角度来精确定位物体的粗糙度和光滑程度。它生成法线图的基本估计,可以保留相当多的细节,但可能会产生意想不到的结果,因为法线图完全来自图像,而不是在3D建模软件中构建的。 法线图有利于突出复杂的细节和轮廓,并且在定位对象方面也很有效,特别是在接近度和距离方面。“Normal Background Threshold”用于调整背景成分。设置一个更高的阈值可以移除背景的远处部分(将其混合成紫色)。降低阈值将命令AI保留甚至显示额外的背景元素。用于此预处理器的最佳模型是control_sd15_normal。
Downloading: "https://huggingface.co/lllyasviel/ControlNet/resolve/main/annotator/ckpts/dpt_hybrid-midas-501f0c75.pt" to D:\workspace\project\stablediffusion\sdwebui\sdwebui-src\models\midas\dpt_hybrid-midas-501f0c75.pt
8. MLSD ( Mobile Line Segment Detection)
MLSD Preprocessor 最适合生成强有力的线条,这些线条能够检测出需要独特和刚性轮廓的建筑和其他人造作品。但是它不适用于处理非刚性或弯曲的物体。MLSD适用于生成室内布局或建筑结构,因为它可以突出直线和边缘。用于此预处理器的最佳模型是control_sd15_mlsd。
Segment-anything
sdwebUI 插件地址:GitHub - continue-revolution/sd-webui-segment-anything: Segment Anything for Stable Diffusion WebUI
官网:Segment Anything | Meta AI (segment-anything.com)
Segment Anything 提供了一种新的图像分割模型。该模型支持输入点或者方框作为引导提示,可以生成图像中所有对象的 mask。它使用 11 million 图像和 1.1 billion masks 数据进行训练,具有很好的 zero-shot transfer 零样本迁移到新的图像分割和任务的能力。
prompts 插件
sd-dynamic-prompts
A custom extension for AUTOMATIC1111/stable-diffusion-webui that implements an expressive template language for random or combinatorial prompt generation along with features to support deep wildcard directory structures.
sd-prompt-translator
GitHub - studyzy/sd-prompt-translator: Stable Diffusion extension for prompt translation
本插件具有以下特点:
- 直接使用中文编写提示词,即使完全不会英文都不受影响。
- 完美兼容SD的提示词语法,支持中英文混输。
- 基于facebook/mbart-large-50-many-to-many-mmt的prompt翻译模型(在首次安装使用时会自动下载约2.4G的翻译模型, 请确保网络连接正常),在本地自然语言处理模型进行翻译,使用时无需连接百度翻译、Google翻译等服务,可离线使用。
- 支持自定义翻译字词。在stable-diffusion-webui/extensions/sd-prompt-translator/scripts/translations.csv中保存了大量常用的中文触发词对应的英文Prompt,你可以手动修改该文件内容,增加自己的自定义翻译内容。
- 默认翻译中文,可选择翻译其他50多种语言。
- API支持,对开发AIGC应用更友好。
prompt_translator
Stable diffusion is a text to image generation model. The prompt_translator extension allows people to translate their prompt from any language to English before executing the generation, making it accessible to a wider audience.
图片处理插件
wd14-tagger
GitHub - toriato/stable-diffusion-webui-wd14-tagger: Labeling extension for Automatic1111's Web UI wd14-tagger 提供从图片反推 prompt 提示词的功能。
Loading wd14-vit-v2-git model file from SmilingWolf/wd-v1-4-vit-tagger-v2
wd14-tagger 没有训练新的模型,是基于 DeepDanbooru 和 MrSillingWolf 的 tagger 的模型和其部分代码实现。 DeepDanbooru and MrSmillingWolf's tagger MrSmilingWolf.
Rembg
GitHub - danielgatis/rembg: Rembg is a tool to remove images background
multidiffusion-upscaler-for-automatic1111
视频插件
deforum
GitHub - deforum-art/sd-webui-deforum: Deforum extension for AUTOMATIC1111's Stable Diffusion webui
ebsynth_utility
[AUTOMATIC1111 UI extension for creating videos using img2img and ebsynth.](github.com/s9roll7/ebs…
This extension allows you to output edited videos using ebsynth.(AE is not required)
With Controlnet installed, I have confirmed that all features of this extension are working properly!
Controlnet is a must for video editing, so I recommend installing it.
Multi ControlNet("canny" + "normal map") would be suitable for video editing.