Datawhale X 魔搭 AI夏令营--笔记1文生图历史文生图基础知识文生图（Text-to-Image Gen

文生图历史

文生图基础知识

文生图（Text-to-Image Generation）是一种通过文本生成图像的技术，主要以SD系列基础模型为主，以及在其基础上微调的lora模型和人物基础模型等。

提示词写法

一般写法：主体描述，细节描述，修饰词，艺术风格，艺术家

举个例子

【 promts 】Beautiful and cute girl, smiling, 16 years old, denim jacket, gradient background, soft colors, soft lighting, cinematic edge lighting, light and dark contrast, anime, super detail, 8k 【 负向prompts 】(lowres, low quality, worst quality:1.2), (text:1.2), deformed, black and white,disfigured, low contrast, cropped, missing fingers

Lora

Stable Diffusion中的Lora（LoRA）模型是一种轻量级的微调方法，它代表了“Low-Rank Adaptation”，即低秩适应。Lora不是指单一的具体模型，而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下，Lora被用来对预训练好的大模型进行针对性优化，以实现对特定主题、风格或任务的精细化控制。

ComfyUI

ComfyUI 是一个工作流工具，主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能，用户可以轻松地进行模型微调、数据预处理、图像生成等任务，从而提高工作效率和生成效果。

参考图控制

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型（如Stable Diffusion模型）上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程，而ControlNet的作用在于引入额外的控制信号，使得用户能够更具体地指导图像生成的各个方面（如姿势关键点、分割图、深度图、颜色等）。

参考图类型

OpenPose姿势控制：输入是一张姿势图片（或者使用真人图片提取姿势）作为AI绘画的参考图，输入prompt后，之后AI就可以依据此生成一幅相同姿势的图片。
Canny精准绘制：输入是一张线稿图作为AI绘画的参考图，输入prompt后，之后AI就可以根据此生成一幅根据线稿的精准绘制。
Hed绘制：Hed是一种可以获取渐变线条的线稿图控制方式，相比canny更加的灵活。
深度图Midas：输入是一张深度图，输入prompt后，之后AI就可以根据此生成一幅根据深度图的绘制。
颜色color控制：通过参考图控制和颜色控制，实现更加精准和个性化的图像生成效果。

零代码LORA训练

地址： AIGC 专区 - 模型训练 · 魔搭社区 (modelscope.cn)