DatawhaleX魔搭夏令营Task02学习笔记
本次课我收获良多。包括但不仅限于:拥有一个24小时待机AI助理,了解Kolors的咒语书等功能,以及失败但收获颇多的,绑定关键词与素材名称。
1.关于AI文生图前沿
这个名词听起来离我们非常遥远,没什么关联————我在学习这一课之前也是这么想的。但阅读短短几段课程内容后我的想法便发生了改观。
“ 对于普通人来说,可以避免被常见的AI生图场景欺骗,偶尔也可以通过相关工具绘图
对于创作者来说,通过AI生图的工具可以提效,快速制作自己所需要的内容
对于技术人来说,了解AI生图的能力的玩法,可以更好地针对自己的业务进行开发和使用,甚至攻克难题开发更实用的工具”
————课程原文是这么说的。如此看来,每一个群体与AI前沿都有了千丝万缕的关系,如何正确认识和使用这方面的知识也就成了每个人的重要课题。抱着迫切想了解这方面知识的心情我急忙往下看接下来的内容。
简单回顾了AI文生图技术的历史,最早的可以追溯到20世纪70年代的机械臂输出作画。而现代的文生图技术————也就是基于深度神经网络训练的文生图技术————最早是2012年的吴恩达先生发明的。他的“猫咪模型”使用了卷积神经网络(CNN),证实了深度学习模型可以捕捉到图像的复杂特征。
而2015年谷歌公司推出了“深梦”,一个能让图像变得梦幻的滤镜;2021年OpenAI更是推出了DALL-E智能AI工具,此时的文生图已经智能到可以根据文本提示生成多种风格的图片。再放眼如今和未来,AI文生图技术的深度与广度都在持续上升,可谓是前景无量。
课程还提到了一个有趣的现象:恐怖谷效应。指的是人类对一件物品的喜爱程度随它与人类的相似程度的上升,先升后降再升。比如我们喜爱餐厅里“初具人形”的服务机器人,却对假人模特有些发怵,但又不介意正常人。
原先我也听说过这个效应,也体验过相关游戏————一些游戏公司追求刺激,会故意将恐怖游戏内的一些角色制作得有些人样但不多,比如DarkDeception(黑暗欺骗)中的“人体模特”关卡。不得不说,恐怖谷效应的确为这些游戏加分不少。
AI文生图虽然已经取得了长足的进步,却仍然面对许多问题,时至今日我们也时常看见一些“AI翻车”的笑话,其中最经典的莫过于手部生物绘制文体。人手结构复杂,AI稍不留神就会画错酿成笑话。针对这个问题,各大科研公司都花费了大量时间精力去打磨更好的手部模型,开展了无数大数据训练。
值得一提的是,Task02还教了我们几个辨别AI生成图片的妙招:注意图片细节,观察光影,检查像素等,都是很实用的技巧,可以用于生活实际。
作为普通学生,我们无法参与最前沿的技术研发,但可以自己做一些相关小研究。比如使用Kolors(可图),我们不仅可以输入关键词生成属于自己的图片,还可以查询“咒语书”(固定风格的图片对应的关键词),训练自己的AI模型等,有极大操作空间。
2.了解AI助手通义千问
Task02推荐了一个助手:通义千问。我查询了一下,登陆了通义千问官网,得知这个贴心的24小时无待机AI助手不仅可以回答一些普通问题如天气,旅行推荐,还可以帮我们分析代码。(附图:通义千问自我介绍)
我自己也用过这类AI助手,但只觉得他们像“人工智障”而不是正经大模型,现在看来大抵是因为数据库比不得通义千问才显得那么呆呆傻傻的。
跟随教程引导我复制了一段代码让新上任的小助手解答,它的回答出乎我意料,原因无他,对0基础程序员太友好了!不仅标出了每个代码段落的用途,如果我们还是不懂,甚至还可以追问,它也将给出更详细的回答。此处展示它的第一次回答。
追问后它又是这样回答的:
蓝到这里我十分激动,迫不及待地按照教程让他为我生成了一组新的提示词。这次我的故事也很简单,而且充满童话意味:金色长发少女回到乡下的老家却终日阴雨连绵,而少女恍惚中想起自己小时候见过森林中的女巫,女巫教过她如何制作晴天娃娃。从回忆中醒来,少女自己制作了一个晴天娃娃挂在屋檐上。果不其然,雨势渐小,天空放晴。
AI小助手是这样为我准备关键词的:
这组关键词已经相当合我心意,而且我也很好奇AI生成的关键词会不会对于另一个AI来说更好理解,于是我原封不动把这组关键词投喂给了baseline。不过很奇怪,我给Task02新建的魔搭实例无法运行,输出模型部分无论如何都没法正常运行。我更改lorarank参数也无济于事,只好继续用第一课的实例,然后得到了这组图片:
这次的图片明显比第一课中的精细很多,主要是人物的特征是不变的,这让故事的连续性好了许多!但问题也是显而易见的————为什么最后一张图就那么格格不入呢?明明风格关键词是不变的。
但微调几次关键词我仍然不满意,只得进入下一个环节。
3.绑定关键词与素材名称
这个部分是我自主研究的,课程并未做要求。起因是我十分喜爱一位日本画师Keggy的画风,她笔下的人物极富诡谲荒诞的美感,用色饱满大胆。若是能让我的AI也能生成那样的画,我怕是可以乐得合不上嘴。 (Kegggy作品展示如下)
首先我尝试在素材库中导入命好名的素材,然后在关键词中加入素材名称,不过没什么用,生成的图片和第二部分中的没什么区别。
接下来我想起了专业助教说过的“AI会努力模仿dataset_proceeded\train中的图片”。那么如果这个素材库里面只有Keggy的作品,AI不就只有这个风格可以模仿了嘛!这么想着我删除了这个文件夹中除keegy作品以外的所有图片。
不过还是没用!就算不能全部看懂,我也努力地观察了很久baseline中的代码群,然后锁定了新的目标:似乎每次生成新的图片我都是按了“restart”(全部重启),于是baseline中的“开始训练”部分也是一次次运行,然后自动导入原先我删除的图片,导致生成图片的时候我的Train文件中仍然有其他素材。
那么如果只运行生成图片部分呢?我又删掉了其他素材并且只启动了生成八张图片的程序。结果再一次让我失望————还是没有我预期的结果。
问题出在哪?我又仔细地看起了代码,这次找到了这个表格:
回想起baseline中的默认的“偶像少女养成日记”中的关键词,我隐约有了想法:也许只是修改素材名称是不够的,我需要更改这个表格中的内容!
很可惜这个表格直接点击是无法修改的。我去询问了学习群内的专业助教也没得到答案,他没尝试过这个思路。接下来我在学校新生群————我本人是人工智能专业的准大一,新生群里也是媒体工程学院的学长学姐和同年级新生————提出了这个问题,同样无人解答。
最后我询问了通义千问,得到了这个回答。
但我继续追问“在哪插入这个数据框”时,它给出的回答太模糊,不是我这个程序小白看得懂的,万般遗憾也只得作罢。后续我计划开学后x去询问专业课老师。
4.其它尝试
即便没法生成Keggy风格的图片,我还是想让我的作品多一些特色,于是我翻阅了Kolors咒语书,挑挑拣拣看中了“新艺术风格”的示例图片,于是在原有基础上加上了“美丽的艺术”“新艺术风格”这两个词,得到了这组图片:
然后我尝试了魔搭社区的scepter工具,很快发现了它地过人之处。scepter的操作界面更简洁,适合初学者,而且不消耗免费提供的算力!生成速度也是极快的。尝试了一会这个全新的工具我得到了这些“实验副产品”:
其实还是可以明显看出人物手部的扭曲,AI文生图仍然面临严峻考验。
5.感想与计划
Task02让我对AI文生图技术有了更深的理解,不再是单纯输入关键词,而是能大概理解每一段代码的含义,并且在通义千问的帮助下适度修改。
在后续学习中我有了一个新的计划:通过scepter的“模型微调”功能,实现与修改上述表格同样的效果,从而拥有能模仿Keggy画风的AI。我设想将Keggy的作品与新的提示关键词作为“修改微调”的部分导入原模型,但目前我无法下载原模型,时间原因只能下次继续研究。