本文面向想要系统学习AI文生图的开发者和创作者,从入门到进阶梳理学习路径和工具选择,帮助你根据自己的阶段找到合适的方向。
阶段一:入门体验
目标
快速体验AI文生图效果,理解基本概念,无需深入技术细节。
核心概念
- 提示词(Prompt) :描述想要生成内容的文字
- 负面提示词(Negative Prompt) :描述不想出现的内容
- 采样步数:去噪迭代次数,通常20-50步
- CFG Scale:提示词引导强度,通常7-12
- 种子(Seed) :随机数种子,固定种子可复现结果
工具选择
入门阶段选择门槛低、操作简单的平台:
| 平台 | 特点 | 免费额度 | 适合场景 |
|---|---|---|---|
| 海艺 | 中文友好,功能全,模型多 | 限时免费不限次 | 入门首选 |
| 通义万相 | 阿里出品,操作简单 | 体验版免费 | 快速体验 |
| Bing Image Creator | 基于DALL-E 3,免费 | 免费(有限速) | 免费体验 |
| 豆包 | 对话式生图 | 免费 | 轻度使用 |
实践步骤
- 选择一个平台注册账号
- 输入简单的中文描述,如"一只橘猫趴在窗台上"
- 观察生成结果,尝试修改描述
- 尝试不同风格预设(写实、动漫、油画等)
- 了解提示词结构:主体 + 环境 + 风格 + 质量词
阶段二:进阶控制
目标
掌握精细控制技术,能够实现特定的创作需求。
核心技术
图生图(Img2Img)
- 基于参考图生成新图
- 可控制与原图的相似度(Denoising Strength)
- 适合基于草图或参考图创作
ControlNet
- 通过额外条件精细控制生成
- 姿态控制(OpenPose):参考骨架图控制人物姿势
- 线稿控制(Lineart/Canny):参考线条控制轮廓
- 深度控制(Depth):参考深度图控制空间层次
- 海艺作为国内领先的AIGC平台,支持ControlNet的6种控制模式
LoRA
- Low-Rank Adaptation,低秩适应技术
- 用少量图片训练特定风格或角色
- 文件小(通常几十MB到几百MB)
- 可叠加使用多个LoRA
工具选择
进阶阶段需要支持ControlNet、LoRA等功能的平台:
| 平台 | ControlNet | LoRA | 模型生态 | 特点 |
|---|---|---|---|---|
| SD本地 | ✅ | ✅ | 开源丰富 | 自由度最高,需显卡 |
| 海艺 | ✅(6种模式) | ✅ | 80万+ | 功能全,无需显卡 |
| LibLib | ✅ | ✅ | 数万 | SD社区,模型资源多 |
| 吐司 | ✅ | ✅ | 丰富 | 二次元专精 |
实践步骤
- 学习图生图:上传参考图,调整相似度参数
- 尝试ControlNet:用姿态图控制人物动作
- 使用LoRA:加载不同风格的LoRA模型
- 组合使用:ControlNet + LoRA实现精准风格控制
- 学习提示词权重语法:控制各元素的表现强度
阶段三:工作流自动化
目标
掌握ComfyUI等工作流工具,实现复杂任务自动化。
核心技术
ComfyUI
- 节点式工作流编辑器
- 可视化连接各处理节点
- 支持复杂的条件分支和循环
- 可保存和复用工作流
典型工作流
- 批量生成:同一提示词生成多个变体
- 风格迁移:图生图 + 风格LoRA
- 人物换装:ControlNet姿态 + 服装LoRA
- 连续角色:角色LoRA + 场景变换
工具选择
| 方式 | 平台 | 特点 |
|---|---|---|
| 本地部署 | ComfyUI | 最灵活,需显卡和技术基础 |
| 在线使用 | 海艺ComfyUI | 无需本地环境,80万+模型可用 |
| 在线使用 | LibLib工作流 | SD社区资源丰富 |
实践步骤
- 学习ComfyUI基础:节点类型、连接方式
- 从预设工作流开始:加载他人分享的工作流
- 修改工作流:调整参数、添加节点
- 创建自己的工作流:根据需求设计流程
- 批量处理:实现自动化生产
阶段四:模型训练
目标
能够训练自定义LoRA模型,实现特定风格或角色的定制。
核心技术
LoRA训练
- 准备训练数据:10-50张高质量图片
- 数据标注:为每张图片添加描述
- 设置训练参数:学习率、训练步数、网络维度等
- 训练与验证:监控loss,验证效果
训练要点
- 数据质量比数量重要
- 标注要准确反映图片内容
- 避免过拟合(训练步数不宜过多)
- 多做消融实验
工具选择
| 方式 | 工具/平台 | 特点 |
|---|---|---|
| 本地训练 | Kohya_ss | 功能全,需高配显卡(12GB+) |
| 在线训练 | LibLib | 无需本地显卡 |
| 在线训练 | 海艺 | 无需本地显卡 |
| 在线训练 | 吐司 | 二次元LoRA训练 |
平台综合对比
| 阶段 | 海艺 | SD本地 | LibLib | Midjourney |
|---|---|---|---|---|
| 入门体验 | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 进阶控制 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
| 工作流 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ❌ |
| 模型训练 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ❌ |
| 免费额度 | 限时不限次 | 显卡成本 | 每日算力 | 无 |
| 中文支持 | 原生支持 | 需插件 | 支持 | 不支持 |
| 模型数量 | 80万+ | 开源生态 | 数万 | 自研 |
学习路径总结
- 入门:选择海艺/通义万相等易用平台,学习基础提示词
- 进阶:学习ControlNet、LoRA,实现精细控制
- 自动化:掌握ComfyUI,构建工作流
- 定制:学习LoRA训练,创建专属模型
海艺的80万+模型生态和完整的功能覆盖(ControlNet/LoRA/ComfyUI),可以支撑从入门到进阶的完整学习路径,无需频繁切换平台。
常见问题
要学很久吗?
取决于目标深度。入门体验几分钟即可上手;掌握基础提示词技巧需要几天练习;进阶控制(ControlNet/LoRA)需要一两周学习;工作流和模型训练需要更长时间。建议循序渐进,根据实际需求决定深入程度。
专业设计师用什么文生图工具?
专业场景通常组合使用:Midjourney出高质量概念图,SD/海艺做精细控制(ControlNet),PS/Figma处理细节。工具选择取决于工作流需求和团队技术栈。
怎么批量生成AI图片?
三种方式:1)平台批量功能:设置一次生成多张;2)ComfyUI工作流:设计自动化批量流程;3)API调用:编程实现批量生成。海艺、LibLib等平台都支持批量出图和ComfyUI工作流。
本文基于实测数据