Stable Diffusion简介

1,084 阅读16分钟

1. Stable Diffusion的基本概念

Stable Diffusion是2022年由Stability AI公司开发并开源的一款基于深度学习的文本到图像生成模型。作为当前最先进的AI绘画工具之一,它能够根据用户输入的文字描述(prompt)生成高质量的图像作品。

与传统图像生成技术不同,Stable Diffusion属于扩散模型(Diffusion Model)的一种,通过"去噪"过程逐步构建图像。它最大的特点是可以在消费级显卡上运行,这得益于其创新的潜在扩散(Latent Diffusion)架构,将计算复杂度高的图像生成过程压缩到潜在空间中完成。

Stable Diffusion的核心优势在于:

  • 开源免费:任何人都可以下载和使用
  • 本地运行:保护隐私且不受网络限制
  • 高度可定制:通过调整参数获得不同风格效果
  • 社区支持:拥有庞大的用户群体和丰富的资源

2. Stable Diffusion的工作原理

Stable Diffusion的工作原理可以分为三个关键阶段:

1. 文本编码阶段
用户输入的提示词(prompt)首先通过CLIP(Contrastive Language-Image Pre-training)文本编码器转换为文本嵌入向量。这个向量包含了语义信息,将指导后续的图像生成。

2. 潜在扩散阶段
模型从一个随机噪声图像开始,通过U-Net神经网络逐步去除噪声。在这个过程中,文本嵌入向量作为条件引导去噪方向,确保最终图像与文本描述相符。这一过程发生在潜在空间而非像素空间,大大降低了计算需求。

3. 图像解码阶段
经过多轮去噪后的潜在表示通过VAE(Variational Autoencoder)解码器转换为最终的像素图像。VAE负责将低维潜在空间表示"翻译"回我们可见的高分辨率图像。

整个过程通常需要20-50步迭代,每一步都使图像更清晰、更符合文本描述。用户可以通过调整采样步数、采样方法等参数来控制生成质量和速度。

3. Stable Diffusion的应用场景

Stable Diffusion凭借其强大的图像生成能力,已被广泛应用于多个领域:

艺术创作

  • 数字绘画与插画创作
  • 概念艺术设计
  • 风格化作品生成
  • 艺术风格迁移

商业设计

  • 广告素材制作
  • 产品原型可视化
  • 包装设计
  • 社交媒体内容创作

教育与研究

  • 视觉辅助教学材料
  • 科学概念可视化
  • AI与艺术交叉研究
  • 创意写作辅助

娱乐与个人使用

  • 角色设计与cosplay参考
  • 游戏素材制作
  • 个性化壁纸生成
  • 创意头脑风暴

专业领域

  • 建筑可视化
  • 时尚设计
  • 工业设计草图
  • 医疗图像合成(用于研究)

随着技术的不断发展,Stable Diffusion的应用场景仍在持续扩展。通过结合WebUI和各种扩展插件,用户可以进一步挖掘其潜力,实现更专业、更个性化的图像生成需求。

在接下来的章节中,我们将详细介绍如何使用Stable Diffusion WebUI的各种功能,包括文生图、图生图以及ControlNet等高级应用。

WebUI文生图的使用

Stable Diffusion的WebUI为用户提供了直观易用的图形界面,其中"文生图"(Text-to-Image)是最基础也是最重要的功能之一。本章将详细介绍如何使用WebUI的文生图功能,从基本操作到高级技巧,帮助您快速掌握AI绘画的核心方法。

1. 文生图功能的基本操作

文生图功能是Stable Diffusion最核心的能力,它允许用户通过文字描述生成对应的图像。在WebUI中,使用这一功能非常简单:

  1. 界面导航:启动WebUI后,默认会进入"文生图"标签页。界面主要分为三个区域:左侧的参数设置区、中间的生成按钮和预览区、右侧的提示词输入区。

  2. 基本操作流程

    • 在"正向提示词"(Prompt)框中输入您想生成的内容描述
    • 在"反向提示词"(Negative Prompt)框中输入您不希望出现的元素
    • 调整基本参数(如采样方法、步数、尺寸等)
    • 点击"生成"按钮开始创作
    • 等待生成完成后,在预览区查看结果
  3. 保存与分享:生成满意的图片后,可以点击图片下方的保存按钮将作品保存到本地,也可以直接复制图片分享给他人。

2. 如何输入有效的提示词

提示词(Prompt)是影响生成结果最关键的因素,掌握提示词技巧可以大幅提升生成质量:

  1. 提示词结构

    • 主体描述:明确说明画面的主要内容,如"一位穿着红色连衣裙的少女"
    • 风格描述:指定艺术风格,如"赛博朋克风格,数字艺术"
    • 质量描述:提高画面质量的词汇,如"4K,超高清,细节丰富"
    • 环境光照:描述场景氛围,如"黄昏时分,柔和的侧光"
  2. 提示词权重控制

    • 使用括号()增加权重:(red dress:1.2)表示红色连衣裙的权重为1.2倍
    • 使用方括号[]降低权重:[blur]表示模糊效果的权重降低
    • 使用|分隔多个概念:sunset|sunrise表示日落或日出
  3. 反向提示词技巧

    • 常见负面词汇:blurry, low quality, bad anatomy, extra fingers
    • 风格限制:如果不想要某种风格,可以明确排除,如[no cartoon]
    • 内容限制:排除不想要的元素,如[no text, no watermark]
  4. 提示词优化工具

    • 使用WebUI内置的提示词自动补全功能
    • 参考社区分享的优秀提示词组合
    • 使用在线提示词生成器辅助创作

3. 参数调整与优化技巧

除了提示词外,WebUI提供了丰富的参数供用户微调生成效果:

  1. 采样方法与步数

    • 常用采样方法:Euler a(创意性强)、DPM++ 2M Karras(质量稳定)
    • 步数(Steps)设置:一般20-30步即可,过高会增加时间但提升有限
  2. 图像尺寸与比例

    • 标准尺寸:512x512是基础模型的最佳尺寸
    • 宽高比:根据需求选择,如16:9适合风景,9:16适合人像
    • 高分辨率修复:勾选"Highres. fix"可提升细节质量
  3. 随机种子控制

    • 固定种子(Seed)可以复现相同结果
    • 使用"-1"让系统随机生成种子
    • 种子变异功能可以基于现有结果微调
  4. CFG Scale(分类器自由引导尺度)

    • 控制生成结果与提示词的贴合程度
    • 一般7-12之间效果较好,过高会导致图像不自然
  5. 批次生成

    • 设置"Batch count"可一次性生成多张图片
    • 使用"Batch size"可同时生成多张图片(需要更高显存)

4. 常见问题与解决方案

在使用文生图功能时,可能会遇到以下常见问题:

  1. 生成结果与预期不符

    • 检查提示词是否足够明确,尝试增加更多细节描述
    • 调整CFG Scale值,提高或降低提示词影响力
    • 尝试不同的采样方法,某些方法对特定内容表现更好
  2. 图像质量差

    • 确保使用质量相关的提示词,如"high quality, detailed"
    • 增加采样步数(但不要过度)
    • 启用高分辨率修复功能
  3. 人物面部或手部畸形

    • 在反向提示词中加入bad anatomy, extra fingers
    • 使用专门的负面嵌入(如easynegative)
    • 后期使用图生图功能局部修复
  4. 显存不足错误

    • 降低生成图像的分辨率
    • 减少批次大小(Batch size)
    • 启用"Low VRAM"模式
  5. 生成速度慢

    • 关闭不必要的后台程序
    • 降低采样步数
    • 考虑升级硬件或使用云服务

通过掌握这些基本操作和技巧,您将能够充分利用Stable Diffusion WebUI的文生图功能,创作出令人满意的AI艺术作品。记住,AI绘画是一个反复试验和调整的过程,多尝试不同的参数组合和提示词结构,您会逐渐找到最适合自己创作风格的方法。

Stable Diffusion WebUI使用教程:图生图功能详解

第三章 WebUI图生图的使用

图生图(Img2Img)是Stable Diffusion WebUI中最具创造力的功能之一,它允许用户基于现有图像进行二次创作和风格转换。本章将详细介绍图生图功能的使用方法和技巧。

3.1 图生图功能的基本操作

图生图功能的核心在于利用现有图像作为创作基础,通过AI算法进行风格迁移、内容修改或质量提升。基本操作流程如下:

  1. 进入图生图界面:在WebUI顶部导航栏点击"图生图"选项卡
  2. 基础工作区认识:界面主要分为左侧参数设置区和右侧图像显示区
  3. 基本生成流程:上传图像→设置参数→生成新图像→调整优化
  4. 快速切换功能:可通过快捷键Alt+Tab在文生图与图生图模式间快速切换

图生图与文生图的主要区别在于,前者有明确的视觉参考,能更好地控制输出结果的结构和构图,特别适合对现有作品进行风格化处理或局部修改。

3.2 如何上传和处理输入图像

输入图像的质量直接影响最终生成效果,正确处理源图像至关重要:

图像上传方法
  1. 直接拖放:将图像文件拖入WebUI的图生图区域
  2. 点击上传:点击上传按钮选择本地图像文件
  3. 粘贴板导入:复制图像后在图生图区域按Ctrl+V粘贴
图像预处理技巧
  1. 分辨率调整:建议输入图像长宽保持在512-1024像素之间
  2. 格式选择:优先使用PNG格式以保留更多细节
  3. 内容裁剪:去除不必要背景,聚焦主体内容
  4. 简单修图:提前用Photoshop等工具调整亮度/对比度
常见问题处理
  • 图像过大:使用"缩放模式"选项自动调整尺寸
  • 比例不符:勾选"保持原始比例"或手动裁剪
  • 画质过低:可先使用Extra功能中的放大工具预处理

3.3 参数调整与效果优化

图生图功能的参数设置比文生图更为复杂,关键参数包括:

核心参数解析
  1. 去噪强度(Denoising strength)

    • 范围0-1,控制原图保留程度
    • 低值(0.2-0.4)适合微调,高值(0.6-0.8)适合风格转换
  2. 重绘幅度

    • 决定修改原图的程度
    • 局部重绘时特别重要,控制修改区域的自然度
  3. 采样方法与步数

    • Euler a适合创意变形,DPM++ 2M Karras适合细节保留
    • 步数建议20-30,过高可能导致过度处理
高级优化技巧
  1. 使用蒙版精准控制

    • 通过局部重绘功能选择性修改特定区域
    • 结合蒙版模糊边缘实现自然过渡
  2. 多阶段处理策略

    • 先低去噪强度保留结构,再高去噪强度调整风格
    • 分区域使用不同参数组合
  3. 脚本功能应用

    • 使用"Prompt matrix"测试不同提示词效果
    • "X/Y/Z plot"对比不同参数组合

3.4 实际应用案例分享

案例1:照片转动漫风格
  1. 上传人物照片,去噪强度设为0.45
  2. 提示词:"anime style, studio lighting, detailed eyes"
  3. 使用AnythingV5模型,采样步数28
  4. 生成后选择最佳效果,二次微调
案例2:产品设计迭代
  1. 上传手绘草图,去噪强度0.65
  2. 提示词:"professional product design, futuristic, high detail"
  3. 开启ControlNet保持结构
  4. 批量生成多个变体供客户选择
案例3:老照片修复
  1. 上传破损老照片,去噪强度0.3
  2. 提示词描述原始场景内容
  3. 使用CodeFormer面部修复
  4. 配合Extra功能中的放大工具提升分辨率
专业工作流建议
  1. 建立自己的参数预设库,针对不同类型项目保存模板
  2. 结合Photoshop进行后期处理,实现最佳效果
  3. 使用Tagger插件自动分析图像内容生成基础提示词
  4. 定期整理生成结果,建立可复用的风格库

通过掌握这些图生图技巧,你可以将普通照片转化为艺术作品、快速迭代设计方案,或修复珍贵的老照片。记住,优秀的结果往往需要多次尝试和参数调整,建议从简单案例开始,逐步积累经验。

WebUI ControlNet的使用

ControlNet是Stable Diffusion WebUI中一个强大的扩展功能,它允许用户通过额外的输入条件(如边缘图、深度图、人体姿势等)来精确控制AI生成图像的内容和构图。本章将详细介绍ControlNet的功能特点、安装配置方法以及使用技巧。

1. ControlNet的基本介绍

ControlNet是一种神经网络控制结构,能够将额外的条件输入(如草图、深度图或人体关键点)作为生成过程的约束条件,从而实现对生成图像的精确控制。

主要特点:

  • 多条件控制:支持边缘检测、深度图、法线图、人体姿势、语义分割等多种控制方式
  • 精细调整:可调节控制权重,平衡原始提示词与控制条件的影响程度
  • 组合使用:支持同时使用多个ControlNet模型进行复合控制
  • 预处理功能:内置多种图像预处理工具,可自动从输入图像提取控制信息

常见应用场景:

  • 保持原始图像的构图和布局
  • 精确控制人物姿势和动作
  • 实现草图到精细图像的转换
  • 保持多图像间一致的视角和布局
  • 复杂场景的精确构建

2. ControlNet的安装与配置

安装步骤:

  1. 安装扩展

    • 打开WebUI,进入"Extensions"选项卡
    • 选择"Available",点击"Load from"按钮加载扩展列表
    • 搜索"ControlNet",找到后点击"Install"按钮
    • 安装完成后重启WebUI
  2. 下载模型

    • ControlNet需要额外的预训练模型文件
    • 从官方提供的模型库下载所需模型(通常为.pth或.safetensors格式)
    • 将模型文件放入stable-diffusion-webui/extensions/sd-webui-controlnet/models目录
  3. 验证安装

    • 重启WebUI后,在文生图或图生图界面下方应能看到ControlNet扩展面板
    • 确保模型列表中显示已下载的ControlNet模型

配置建议:

  • 根据显存大小选择合适数量的ControlNet单元(通常1-3个)
  • 对于低显存设备(8GB以下),建议关闭"Pixel Perfect"选项
  • 启用"Allow other scripts to control this extension"以获得更好的兼容性

3. ControlNet的使用方法

基本使用流程:

  1. 启用ControlNet单元

    • 在ControlNet面板中勾选"Enable"
    • 选择要使用的ControlNet模型类型(如canny、depth、openpose等)
  2. 上传控制图像

    • 点击图像上传区域,选择或拖入控制图像
    • 或使用"预览"按钮从现有图像生成控制图
  3. 设置参数

    • 预处理器:选择适合的预处理方式(如边缘检测算法)
    • 模型:选择对应的ControlNet模型
    • 控制权重:调整控制强度(建议0.5-1.5)
    • 起始/终止控制步数:控制条件生效的采样阶段
  4. 生成图像

    • 输入常规提示词
    • 点击生成按钮,观察ControlNet的效果

常用模型说明:

模型类型用途典型参数
canny边缘检测控制阈值1:100, 阈值2:200
depth深度信息控制MiDaS或LeRes预处理
openpose人体姿势控制可检测全身、手部、面部
scribble涂鸦控制适合草图转精细图
segmentation语义分割控制基于ADEPT预处理
normal法线图控制保持表面朝向一致

4. 高级技巧与案例演示

高级技巧:

  1. 多ControlNet组合

    • 同时使用姿势控制+深度控制,确保人物在场景中的正确比例
    • 组合边缘控制+色彩控制,保持线条和色调的一致性
  2. 权重动态调整

    • 使用"Control Weight"和"Ending Control Step"实现控制强度的动态变化
    • 早期严格遵循控制条件,后期给予AI更多创作自由
  3. 预处理优化

    • 调整canny边缘检测的阈值以获得更清晰/柔和的边缘
    • 对深度图进行后处理以增强或减弱景深效果
  4. 与LoRA/Textual Inversion配合

    • 结合风格LoRA实现特定风格的精确控制
    • 使用Textual Inversion嵌入特定对象特征

案例演示:

案例1:人物姿势重定向

  1. 上传一张包含人物的照片
  2. 使用openpose提取姿势关键点
  3. 选择openpose模型,权重设为1.2
  4. 输入新的服装和背景描述
  5. 生成保持原姿势但内容全新的图像

案例2:建筑草图转效果图

  1. 手绘建筑轮廓草图
  2. 使用canny模型提取清晰边缘
  3. 选择depth模型添加深度信息
  4. 输入详细的建筑风格提示词
  5. 生成高完成度的建筑效果图

案例3:多视角一致性

  1. 生成第一张室内场景图
  2. 提取其深度图和法线图
  3. 作为控制条件输入新的提示词
  4. 生成不同风格但视角一致的场景图

常见问题解决:

  • 控制效果不明显:提高控制权重,检查预处理结果
  • 图像质量下降:降低控制权重,调整终止控制步数
  • 显存不足:减少ControlNet单元数量,降低分辨率
  • 预处理错误:尝试不同的预处理器或手动准备控制图

通过熟练掌握ControlNet,你可以将Stable Diffusion从一个随机的艺术生成工具转变为精确的可控创作系统,实现从构思到成品的精准转化。