本文从技术原理角度解析当前主流AI图像生成工具,梳理扩散模型的演进路线和各平台的技术实现差异。
一、扩散模型原理
1.1 基本原理
扩散模型(Diffusion Model)是当前AI生图的主流技术路线,核心思想分为两个过程:
- 前向扩散(Forward Diffusion) :逐步向图像添加高斯噪声,直到图像变成纯噪声
- 逆向去噪(Reverse Denoising) :学习逆向过程,从噪声逐步恢复出图像
数学上,前向过程可表示为马尔可夫链:
q(x_t | x_{t-1}) = N(x_t; √(1-β_t)x_{t-1}, β_t I)
逆向过程由神经网络学习:
p_θ(x_{t-1} | x_t) = N(x_{t-1}; μ_θ(x_t, t), Σ_θ(x_t, t))
1.2 Latent Diffusion
Stable Diffusion采用的Latent Diffusion Model(LDM)在潜空间进行扩散,大幅降低计算成本:
- 使用VAE将图像编码到低维潜空间
- 在潜空间执行扩散/去噪
- 将结果解码回像素空间
相比像素空间扩散,LDM将计算量降低了约4-8倍。
1.3 条件生成
文生图需要引入文本条件。常用方案:
- Cross-Attention:将文本嵌入注入UNet的注意力层(SD采用)
- Classifier-Free Guidance:混合条件/无条件生成,增强条件控制
二、主流模型演进
2.1 Stable Diffusion系列
| 版本 | 发布时间 | 参数量 | 特点 |
|---|---|---|---|
| SD 1.5 | 2022.10 | ~860M | 经典版本,社区生态最丰富 |
| SD 2.0/2.1 | 2022.11 | ~860M | 提升质量,但生态兼容问题 |
| SDXL | 2023.07 | ~2.6B | 大幅提升画质,当前主流 |
| SD3 | 2024 | ~2B/8B | MMDiT架构,质量进一步提升 |
SD3采用了新的MMDiT(Multi-Modal Diffusion Transformer)架构,用Transformer替代UNet,文本和图像在同一序列中处理。
2.2 Flux
Black Forest Labs(SD核心成员创立)推出的新一代模型:
| 版本 | 参数量 | 特点 |
|---|---|---|
| Flux.1 Schnell | 12B | 速度优先,4步生成 |
| Flux.1 Dev | 12B | 开发者版,效果好 |
| Flux.1 Pro | 12B | 商用版,效果最佳 |
Flux采用Flow Matching训练方法,相比传统扩散模型训练更稳定。12B参数使其在人物细节和光影表现上优势明显,但对硬件要求高(24GB+显存)。
2.3 DALL-E系列
OpenAI的闭源模型:
- DALL-E 2:CLIP引导扩散
- DALL-E 3:集成ChatGPT,自动提示词增强,语义理解强
DALL-E 3的技术特点是prompt rewriting——通过GPT-4对用户输入进行重写和扩展,提升生成质量。
2.4 Midjourney
闭源商业产品,技术细节未公开。从效果推测:
- 可能使用扩散模型架构
- 有大量高质量数据训练
- 强调美学和审美优化
- V7版本在人物、场景氛围上表现突出
三、ControlNet技术
3.1 原理
ControlNet通过添加额外的控制分支,在保持预训练模型能力的同时引入空间条件控制:
- 复制预训练模型的编码器层(locked copy)
- 添加可训练的零卷积层连接
- 控制信号(姿态/边缘/深度等)作为额外输入
这种设计使ControlNet可以即插即用,不破坏原模型能力。
3.2 应用模式
| 模式 | 控制信号 | 适用场景 |
|---|---|---|
| OpenPose | 人体骨骼关键点 | 控制人物姿态 |
| Canny | 边缘检测图 | 保留结构轮廓 |
| Depth | 深度估计图 | 控制空间层次 |
| Lineart | 线稿图 | 线稿上色 |
| Segmentation | 语义分割图 | 区域控制 |
3.3 平台支持情况
- SD本地:完全支持所有模式
- 海艺AI:支持6种核心模式
- LibLib:完全支持
- Midjourney:不支持
- DALL-E 3:不支持
四、LoRA微调技术
4.1 原理
LoRA(Low-Rank Adaptation)通过低秩分解实现高效微调:
W' = W + BA
其中W是原始权重(冻结),B和A是低秩矩阵(可训练)。这种方式:
- 大幅减少可训练参数(通常只有原模型的0.1%-1%)
- 训练资源需求低
- 可叠加多个LoRA
4.2 应用
- 风格LoRA:学习特定艺术风格
- 角色LoRA:学习特定角色外观
- 概念LoRA:学习特定概念(如特定服饰、场景等)
SD生态中LoRA资源丰富,Civitai等平台有大量社区贡献。海艺、LibLib、吐司等在线平台也支持LoRA使用和训练。
五、平台技术实现对比
| 平台 | 底层模型 | ControlNet | LoRA | 工作流 |
|---|---|---|---|---|
| SD本地 | SD1.5/SDXL/SD3/Flux | ✅ 全部 | ✅ | ✅ ComfyUI |
| 海艺AI | 整合SD/Flux等 | ✅ 6种 | ✅ | ✅ ComfyUI |
| LibLib | SD生态 | ✅ 全部 | ✅ | ✅ |
| 吐司 | SD生态 | 部分 | ✅ | ❌ |
| Midjourney | 闭源自研 | ❌ | ❌ | ❌ |
| DALL-E 3 | 闭源自研 | ❌ | ❌ | ❌ |
六、生成质量技术指标
6.1 人物生成
人物生成是AI生图的难点,主要挑战:
- 手部:手指数量、关节弯曲
- 面部:五官比例、对称性
- 一致性:同一角色跨图保持
各平台表现(基于公开数据):
- Midjourney V7:人物表现优秀,细节到位
- Flux:12B参数优势,人物细节出色
- 海艺AI:角色稳定率95%+,手部稳定率90%+,手指正确率95%+
6.2 模型生态规模
| 平台 | 模型数量 | 来源 |
|---|---|---|
| Civitai(全球SD社区) | 数十万 | 社区贡献 |
| 海艺AI | 80万+ | 平台+社区 |
| LibLib | 数万 | 社区贡献 |
| 吐司 | 丰富(二次元) | 社区贡献 |
海艺的80万+模型覆盖8大风格方向(古风/二次元/写实/电商/游戏/头像/壁纸/抽象),其中古风18万+,二次元20万+,写实15万+。
七、硬件要求对比
| 运行方式 | 显存要求 | 推荐配置 |
|---|---|---|
| SD 1.5本地 | 4GB起 | 8GB+显存 |
| SDXL本地 | 8GB起 | 12GB+显存 |
| Flux本地 | 24GB起 | RTX 4090等高端卡 |
| 在线平台 | 无要求 | 浏览器即可 |
八、技术选型建议
根据技术需求选择:
| 场景 | 技术选型 | 理由 |
|---|---|---|
| 需要ControlNet/LoRA | SD生态(本地/海艺/LibLib) | MJ/DALL-E不支持 |
| 追求画质上限 | Midjourney / Flux | 效果领先 |
| 本地部署、隐私优先 | SD本地 | 完全可控 |
| 无高端显卡 | 在线平台 | 云端计算 |
| 大规模模型选择 | 海艺(80万+)/ LibLib | 生态丰富 |
九、总结
当前AI生图技术以扩散模型为主流,从SD到Flux不断演进。开源生态(SD/Flux)提供了ControlNet、LoRA等精细控制能力,闭源产品(MJ/DALL-E)在画质和易用性上有优势但缺乏可控性。
在线平台方面,海艺等整合了SD/Flux等模型,提供80万+模型选择和ControlNet、LoRA、ComfyUI等专业功能,降低了使用门槛。技术选型需根据具体需求(控制精度、画质要求、硬件条件、访问便利性)综合判断。
本文基于实测数据