Datawhale X 魔搭 AI夏令营|task1小白向笔记

205 阅读3分钟

从零入门AI生图原理&实践

赛题:可图Kolors-LoRA风格故事挑战赛

| 赛事链接 | tianchi.aliyun.com/s/ce4dc8bf8…

  1. 参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格,如水墨画风格、水彩风格、赛博朋克风格、日漫风格......
  2. 基于LoRA模型生成 8 张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度及连贯性 样例:偶像少女养成日记

step1 报名赛事,申请阿里云PAI-DSW试用

试用链接:free.aliyun.com/?productCod…

1723301079205.png

在魔塔社区授权

链接:www.modelscope.cn/my/mynotebo…

在我的notebook处可以找到授权实例然后根据步骤点击即可,授权好后如下方所示。然后就可以去启动实例开始学习了!

1723301267584.png

step2 baseline体验

启动实例后,进入配置实例的界面,设置好后确认订单提交后,就可以返回刚刚魔塔的界面去启动实例了。

image.png

进入实例界面后点击终端(Terminal),复制下面的代码,下载baseline文件。

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git
  • 下载好后,点开左侧的文件夹点击baseline.ipynb打开文件。
  • 完成baseline中第一步安装(点击代码旁边的运行按钮,等待片刻即可)
  • 重启kernel(很重要,别忘了)

1723302183967.png

然后依次运行后面的代码即可(全程约20分钟) 其中prompt(正向描述词)和negative prompt(方向描述词)可以根据自己的需求进行更改,作者把第一幅图的正向描述词的粉色裙子改为了蓝色,最后成图如下:

1.jpg

细看还有许多不足之处,如左手、腿部的阴影等等。需要继续学习后续的知识进行微调,若要达到比赛要求还得发挥创造力和想象力(baseline中的图片仅供参考)

step3保存结果上传

点击终端Terminal,复制下列代码将结果进行输出。

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch=0-step=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

然后在左侧文件夹栏找到output文件夹,可以看到里面已经有图片的文件了,把图片文件ckpt文件保存到本地即可。

最后记得关闭实例!

step4相关知识点

跑完baseline体验完AI生图后,我们可以了解一下相关的知识点。

提示词prompt

AI画图技术中的提示词(prompt)是一种引导AI生成特定图像的指令或关键词。用户通过输入描述性词汇,如风格、主题或具体元素,AI根据这些提示词创造出相应的视觉作品。提示词越详细,生成的图像越接近用户期望。一般写法:主体描述,细节描述,修饰词,艺术风格,艺术家

negative prompt就是你不想生成的提示词。如丑陋、六根手指等等。

Lora模型

Lora是一种用于AI图像生成的高级技术,一种轻量级的微调方法。它允许用户对AI生成的图像进行精细调整。Lora代表"Latent Optimization for Realistic Art"(现实艺术的潜在优化)。通过Lora,用户可以控制图像的特定方面,比如清晰度、风格强度或特定元素的突出,而不需要重新生成整个图像。这使得创作过程更加灵活和个性化。

> 想要生成出更好的图片,我们得明确需求(清楚地知道想要AI生成什么类型的图像,包括风格、主题和细节),然后使用准确精确的提示词prompt,制定好图像的风格元素等等,通过多次的迭代尝试不断调整获得更符合需求的图片。可用如Lora等进行微调,用高质量的训练集训练图像,同时要注意版权和伦理问题。