Datawhale X 魔搭 AI夏令营DatawhaleX魔搭夏令营Task02学习笔记本次课我收获良多。包括但不仅

DatawhaleX魔搭夏令营Task02学习笔记

本次课我收获良多。包括但不仅限于：拥有一个24小时待机AI助理，了解Kolors的咒语书等功能，以及失败但收获颇多的，绑定关键词与素材名称。

1.关于AI文生图前沿

这个名词听起来离我们非常遥远，没什么关联————我在学习这一课之前也是这么想的。但阅读短短几段课程内容后我的想法便发生了改观。

“ 对于普通人来说，可以避免被常见的AI生图场景欺骗，偶尔也可以通过相关工具绘图

对于创作者来说，通过AI生图的工具可以提效，快速制作自己所需要的内容

对于技术人来说，了解AI生图的能力的玩法，可以更好地针对自己的业务进行开发和使用，甚至攻克难题开发更实用的工具”

————课程原文是这么说的。如此看来，每一个群体与AI前沿都有了千丝万缕的关系，如何正确认识和使用这方面的知识也就成了每个人的重要课题。抱着迫切想了解这方面知识的心情我急忙往下看接下来的内容。

简单回顾了AI文生图技术的历史，最早的可以追溯到20世纪70年代的机械臂输出作画。而现代的文生图技术————也就是基于深度神经网络训练的文生图技术————最早是2012年的吴恩达先生发明的。他的“猫咪模型”使用了卷积神经网络（CNN），证实了深度学习模型可以捕捉到图像的复杂特征。

而2015年谷歌公司推出了“深梦”，一个能让图像变得梦幻的滤镜；2021年OpenAI更是推出了DALL-E智能AI工具，此时的文生图已经智能到可以根据文本提示生成多种风格的图片。再放眼如今和未来，AI文生图技术的深度与广度都在持续上升，可谓是前景无量。

课程还提到了一个有趣的现象：恐怖谷效应。指的是人类对一件物品的喜爱程度随它与人类的相似程度的上升，先升后降再升。比如我们喜爱餐厅里“初具人形”的服务机器人，却对假人模特有些发怵，但又不介意正常人。

原先我也听说过这个效应，也体验过相关游戏————一些游戏公司追求刺激，会故意将恐怖游戏内的一些角色制作得有些人样但不多，比如DarkDeception（黑暗欺骗）中的“人体模特”关卡。不得不说，恐怖谷效应的确为这些游戏加分不少。

AI文生图虽然已经取得了长足的进步，却仍然面对许多问题，时至今日我们也时常看见一些“AI翻车”的笑话，其中最经典的莫过于手部生物绘制文体。人手结构复杂，AI稍不留神就会画错酿成笑话。针对这个问题，各大科研公司都花费了大量时间精力去打磨更好的手部模型，开展了无数大数据训练。

值得一提的是，Task02还教了我们几个辨别AI生成图片的妙招：注意图片细节，观察光影，检查像素等，都是很实用的技巧，可以用于生活实际。

作为普通学生，我们无法参与最前沿的技术研发，但可以自己做一些相关小研究。比如使用Kolors（可图），我们不仅可以输入关键词生成属于自己的图片，还可以查询“咒语书”（固定风格的图片对应的关键词），训练自己的AI模型等，有极大操作空间。

2.了解AI助手通义千问

Task02推荐了一个助手：通义千问。我查询了一下，登陆了通义千问官网，得知这个贴心的24小时无待机AI助手不仅可以回答一些普通问题如天气，旅行推荐，还可以帮我们分析代码。（附图：通义千问自我介绍）

通义千问自我介绍.png

我自己也用过这类AI助手，但只觉得他们像“人工智障”而不是正经大模型，现在看来大抵是因为数据库比不得通义千问才显得那么呆呆傻傻的。

跟随教程引导我复制了一段代码让新上任的小助手解答，它的回答出乎我意料，原因无他，对0基础程序员太友好了！不仅标出了每个代码段落的用途，如果我们还是不懂，甚至还可以追问，它也将给出更详细的回答。此处展示它的第一次回答。

通义千问回答1.png

追问后它又是这样回答的：

通义千问回答2.png

蓝到这里我十分激动，迫不及待地按照教程让他为我生成了一组新的提示词。这次我的故事也很简单，而且充满童话意味：金色长发少女回到乡下的老家却终日阴雨连绵，而少女恍惚中想起自己小时候见过森林中的女巫，女巫教过她如何制作晴天娃娃。从回忆中醒来，少女自己制作了一个晴天娃娃挂在屋檐上。果不其然，雨势渐小，天空放晴。

AI小助手是这样为我准备关键词的：

场景1-3.png

场景4-6.png

场景7-8.png

这组关键词已经相当合我心意，而且我也很好奇AI生成的关键词会不会对于另一个AI来说更好理解，于是我原封不动把这组关键词投喂给了baseline。不过很奇怪，我给Task02新建的魔搭实例无法运行，输出模型部分无论如何都没法正常运行。我更改lorarank参数也无济于事，只好继续用第一课的实例，然后得到了这组图片：

TAsk2合集.jpg

这次的图片明显比第一课中的精细很多，主要是人物的特征是不变的，这让故事的连续性好了许多!但问题也是显而易见的————为什么最后一张图就那么格格不入呢？明明风格关键词是不变的。

但微调几次关键词我仍然不满意，只得进入下一个环节。

3.绑定关键词与素材名称

这个部分是我自主研究的，课程并未做要求。起因是我十分喜爱一位日本画师Keggy的画风，她笔下的人物极富诡谲荒诞的美感，用色饱满大胆。若是能让我的AI也能生成那样的画，我怕是可以乐得合不上嘴。（Kegggy作品展示如下）

傀儡童话12.webp

傀儡童话24.webp

首先我尝试在素材库中导入命好名的素材，然后在关键词中加入素材名称，不过没什么用，生成的图片和第二部分中的没什么区别。

接下来我想起了专业助教说过的“AI会努力模仿dataset_proceeded\train中的图片”。那么如果这个素材库里面只有Keggy的作品，AI不就只有这个风格可以模仿了嘛！这么想着我删除了这个文件夹中除keegy作品以外的所有图片。

不过还是没用！就算不能全部看懂，我也努力地观察了很久baseline中的代码群，然后锁定了新的目标：似乎每次生成新的图片我都是按了“restart”（全部重启），于是baseline中的“开始训练”部分也是一次次运行，然后自动导入原先我删除的图片，导致生成图片的时候我的Train文件中仍然有其他素材。

那么如果只运行生成图片部分呢？我又删掉了其他素材并且只启动了生成八张图片的程序。结果再一次让我失望————还是没有我预期的结果。

问题出在哪？我又仔细地看起了代码，这次找到了这个表格：

表格.jpg