[Datawhale X 魔搭 AI夏令营] AIGC方向 Task01笔记Datawhalec × 魔搭，AIGC文

ref: 《动手学大模型应用全栈开发》linklearner.com/activity/14…

Task01笔记

关键词： AIGC文生图、工作流搭建、LoRA微调

相关标签：#可图Kolors-LoRA风格故事挑战赛

环境准备

Step0：开通阿里云PAI-DSW试用

链接：free.aliyun.com/?productCod… 开通免费试用

在魔搭社区进行授权

链接：www.modelscope.cn/my/mynotebo…

如果这一步授权失败，可跳过此步骤，继续往下进行

新用户需要先注册 & 绑定阿里云账号

新用户还需要完成阿里云账号的实名认证，直接完成即可
在魔搭社区创建PAI实例！（点击即可跳转）

链接：www.modelscope.cn/my/mynotebo…

打开上图中 Other - Terminal 可以看到DSW控制台，如下
至此，基础环境搭建完成

baseLine 模型部署

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

Clone完成后通过左侧面板进入kolors文件夹，打开baseline文件
安装环境，然后重启kernel
调整prompt，设置你想要的图片风格，依次修改8张图片的描述(可选，先不改吧，直接到下一步运行)
- 正向描述词：你想要生成的图片应该包含的内容
- 反向提示词：你不希望生成的图片的内容
执行代码获得图片（大约需要20分钟）
此处如果报错 # ModuleNotFoundError: No module named 'diffsynth
- 可能是第一步执行install没成功，再回去跑一下
- 返回Terminal标签页
- 进入DiffSynth-Studio目录
- 执行pip install -e .
- 重新进入baseline标签页一键运行，成了
很好，基础操作完成，再回去看看能改什么

提示词调整

找到prompt块，调整描述内容
- 与官方给出提示词做以区别
  - 紫色改为蓝色
  - 粉色改为红色
  - 短发改为长发
  - 根据各位喜好说不定能调成蕾姆（不是

模型参数调整

找到train_kolors_lora块，调整执行参数
根据前一步指令给出的信息有如下执行参数可进行调整

usage: train_kolors_lora.py [-h] --pretrained_unet_path PRETRAINED_UNET_PATH
                            --pretrained_text_encoder_path
                            PRETRAINED_TEXT_ENCODER_PATH
                            --pretrained_fp16_vae_path
                            PRETRAINED_FP16_VAE_PATH
                            [--lora_target_modules LORA_TARGET_MODULES]
                            --dataset_path DATASET_PATH
                            [--output_path OUTPUT_PATH]
                            [--steps_per_epoch STEPS_PER_EPOCH]
                            [--height HEIGHT] [--width WIDTH] [--center_crop]
                            [--random_flip] [--batch_size BATCH_SIZE]
                            [--dataloader_num_workers DATALOADER_NUM_WORKERS]
                            [--precision {32,16,16-mixed}]
                            [--learning_rate LEARNING_RATE]
                            [--lora_rank LORA_RANK] [--lora_alpha LORA_ALPHA]
                            [--use_gradient_checkpointing]
                            [--accumulate_grad_batches ACCUMULATE_GRAD_BATCHES]
                            [--training_strategy {auto,deepspeed_stage_1,deepspeed_stage_2,deepspeed_stage_3}]
                            [--max_epochs MAX_EPOCHS]
                            [--modelscope_model_id MODELSCOPE_MODEL_ID]
                            [--modelscope_access_token MODELSCOPE_ACCESS_TOKEN]

Simple example of a training script.

options:
  -h, --help            show this help message and exit
  --pretrained_unet_path PRETRAINED_UNET_PATH
                        Path to pretrained model (UNet). For example, `models/
                        kolors/Kolors/unet/diffusion_pytorch_model.safetensors
                        `.
  --pretrained_text_encoder_path PRETRAINED_TEXT_ENCODER_PATH
                        Path to pretrained model (Text Encoder). For example,
                        `models/kolors/Kolors/text_encoder`.
  --pretrained_fp16_vae_path PRETRAINED_FP16_VAE_PATH
                        Path to pretrained model (VAE). For example,
                        `models/kolors/Kolors/sdxl-vae-
                        fp16-fix/diffusion_pytorch_model.safetensors`.
  --lora_target_modules LORA_TARGET_MODULES
                        Layers with LoRA modules.
  --dataset_path DATASET_PATH
                        The path of the Dataset.
  --output_path OUTPUT_PATH
                        Path to save the model.
  --steps_per_epoch STEPS_PER_EPOCH
                        Number of steps per epoch.
  --height HEIGHT       Image height.
  --width WIDTH         Image width.
  --center_crop         Whether to center crop the input images to the
                        resolution. If not set, the images will be randomly
                        cropped. The images will be resized to the resolution
                        first before cropping.
  --random_flip         Whether to randomly flip images horizontally
  --batch_size BATCH_SIZE
                        Batch size (per device) for the training dataloader.
  --dataloader_num_workers DATALOADER_NUM_WORKERS
                        Number of subprocesses to use for data loading. 0
                        means that the data will be loaded in the main
                        process.
  --precision {32,16,16-mixed}
                        Training precision
  --learning_rate LEARNING_RATE
                        Learning rate.
  --lora_rank LORA_RANK
                        The dimension of the LoRA update matrices.
  --lora_alpha LORA_ALPHA
                        The weight of the LoRA update matrices.
  --use_gradient_checkpointing
                        Whether to use gradient checkpointing.
  --accumulate_grad_batches ACCUMULATE_GRAD_BATCHES
                        The number of batches in gradient accumulation.
  --training_strategy {auto,deepspeed_stage_1,deepspeed_stage_2,deepspeed_stage_3}
                        Training strategy
  --max_epochs MAX_EPOCHS
                        Number of epochs.
  --modelscope_model_id MODELSCOPE_MODEL_ID
                        Model ID on ModelScope (https://www.modelscope.cn/).
                        The model will be uploaded to ModelScope automatically
                        if you provide a Model ID.
  --modelscope_access_token MODELSCOPE_ACCESS_TOKEN
                        Access key on ModelScope (https://www.modelscope.cn/).
                        Required if you want to upload the model to
                        ModelScope.

拿gpt做了个参数对照表供参考

参数完整名	是否必填	可选设置值	参数名中文翻译	设置值中文翻译
--help	否	无	帮助	无
--pretrained_unet_path	是	无	预训练UNet路径	无
--pretrained_text_encoder_path	是	无	预训练文本编码器路径	无
--pretrained_fp16_vae_path	是	无	预训练FP16 VAE路径	无
--lora_target_modules	否	无	LoRA目标模块	无
--dataset_path	是	无	数据集路径	无
--output_path	否	无	输出路径	无
--steps_per_epoch	否	无	每个epoch的步骤数	无
--height	否	无	图像高度	无
--width	否	无	图像宽度	无
--center_crop	否	无	中心裁剪	无
--random_flip	否	无	随机翻转	无
--batch_size	否	无	批处理大小	无
--dataloader_num_workers	否	无	数据加载器工作线程数	无
--precision	否	32, 16, 16-mixed	精度	32位, 16位, 混合16位
--learning_rate	否	无	学习率	无
--lora_rank	否	无	LoRA秩	无
--lora_alpha	否	无	LoRA alpha值	无
--use_gradient_checkpointing	否	无	使用梯度检查点	无
--accumulate_grad_batches	否	无	累计梯度批次	无
--training_strategy	否	auto, deepspeed_stage_1, deepspeed_stage_2, deepspeed_stage_3	训练策略	自动, 深度加速阶段1, 深度加速阶段2, 深度加速阶段3
--max_epochs	否	无	最大epoch数	无
--modelscope_model_id	否	无	ModelScope模型ID	无
--modelscope_access_token	否	无	ModelScope访问令牌	无

改命令python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py后面的参数再一键执行
继续等……估计是改参数之后更费GPU了，半小时还没跑完……
终于出结果 - 嘶，画风有点不太一致，而且prompt关键词没调统一

存一份打卡内容

微调结果上传魔搭（点击即可跳转）

移动结果文件

打开Terminal 执行命令

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch=0-step=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

进入左侧目录output，选中文件-右键-download
下载一个图片+一个ckpt文件

上传
- 点击魔搭链接，创建模型，中文名称建议格式：队伍名称-可图Kolors训练-xxxxxx
- ps: 有小伙伴有想法可以组个队
创建完成：www.modelscope.cn/models/Magi…
大致了解完调试过程，返回看[赛题内容] （待更新）
- 参赛者需在可图Kolors 模型的基础上训练LoRA 模型，生成无限风格，如水墨画风格、水彩风格、赛博朋克风格、日漫风格......
- 基于LoRA模型生成 8 张图片组成连贯故事，故事内容可自定义；基于8图故事，评估LoRA风格的美感度及连贯性