Datawhale X魔搭AI夏令营 AIGC方向Task01学习笔记
1.活动简介
从零入门AI生图原理&实践 是 Datawhale 2024 年 AI 夏令营第四期的学习活动( “AIGC”方向),基于魔搭社区 “ 可图Kolors-LoRA风格故事挑战赛 ” 开展的实践学习——
- 适合想 入门并实践 AIGC文生图、工作流搭建、LoRA微调 的学习者参与
学习内容提要:从通过代码实现AI文生图逐渐进阶,教程偏重图像工作流、微调、图像优化等思路,最后会简单介绍AIGC应用方向、数字人技术(选学)
2.理论部分
今天是我第一次参加AIGC方向的学习。作为计算机零基础的参与者,再开始前我就做好了会遇到许多困难的心理准备,但实际操作时遇到的问题仍远比我想的要多。
在开始实践部分前,我简要了解了文生图技术的历史:从受限的早期探索————主要依赖于规则和模板匹配,通过预定义的规则将文本转换为简单的图形————到只能生成不够逼真图画的基于统计模型的方法,再到2010年代的深度学习崛起————此时文生图技术在生成逼真图像方面达到了前所未有的高度。
而在如今的2020年代,文生图技术进入了全新的大规模预训练模型阶段。此时出现了如OpenAI的CLIP、DALL-E以及Stable Diffusion等模型。CLIP通过大规模的文本和图像配对数据训练,能够理解和生成高度一致的文本和图像;DALL-E和Stable Diffusion进一步提升了生成图像的创意和细节表现能力,使得通过简单的文本描述生成高质量、复杂图像成为可能。
这些技术的应用范围从艺术创作、广告设计到辅助医疗诊断,展现了广泛的商业价值和社会影响力。
了解这些基础背景后我才知道目前能被大众使用的文生图技术模型都是无数前人的心血构建而成的,历经数十年才成了现在的样子。正因如此我们更应认真对待每次操作的机会。
3.实践部分
结束了基础知识部分的学习,我开始了实践。夏令营官方给的教程十分详细,每个步骤都有配套的指引图,对新手十分友好。操作部分整个流程大约如下:
journey
title AIGC Task01操作部分简略流程
section 前置准备
开通阿里云PAI-DSW试用: 5: Me
报名赛事: 3: Me
在魔搭社区创建PAI实例: 1: Me
section 实践操作
体验一站式baseline: 5: Me
保存,上传作品: 5: Me
前置操作都很顺利,然而在baseline中我遇到了许多问题。首先是生成的图片与我预期中的相差很远,完全达不到想要的效果。于是第二次我更换了更详细的描述性关键词,但这样得到的图片依旧不理想。
询问了学习群的专业助教后,我得知可能是baseline训练图库中的素材不符合我的个人审美,都是默认的图片。在助教的指导下我找到了AI训练图库(lora_dataset_processed\train),删除了其中部分预设照片并导入我喜欢风格的素材,然后兴致冲冲地第三次运行了程序。这一次的图片中的人物更加精致和富有神采,比起前两次已经是好了许多。但左看右看总觉得哪里不够顺眼。
到这里我忽然意识到一件事:有没有可能我一直感到不满意,其实是因为想用AI描述的故事太过复杂,难以理解?这样一来,不仅对AI生成图片的风格有很高要求,也在无形中为我自己键入关键词时提高了难度。想通了其中缘由,我重新草拟了一个简单的故事:牧羊的少年在森林边缘遇到了一个友善的,矮小的精灵。两人玩耍一阵后精灵拜托牧羊的少年帮他买一顶帽子,因为他自己的帽子已经很破旧了。少年听完去附近城镇买来了帽子送给精灵,最后两人挥手告别。
如此一来,我就能轻松明确八张图片的布局,从而更好地输入描述词。第四次我按照新故事重新填写了baseline中的相关部分得到了图片。这一次的结果已经和我最终成图相差不大,但八张图片的风格不统一,有的像是儿童绘本里的场景,有的则像电影截图。
这时我想到了一开始预设的那一组图片的关键词。预设故事是二次元偶像少女的养成,整体画风是很一致的日漫系,并且每张图片的第一个关键词都是“二次元”,或许这就是统一八张图片风格的关键?第五次我把每张图片的第一个关键词都设置成了“童话风格”,得到了一组大致符合预期的图片如下:
此时我面临最后一个问题:不同图片中的同一角色形象不统一!这也是八张图片给人连续性很弱的感觉的原因。此时我又想到了极具参考价值的预设关键词,提出了新的猜想:是不是因为我在不同图片的关键词中,对同一角色的描述并不完全一致?第六次我修改了关键词的表述,确保每张图片中对“牧羊少年”和“友善的矮小精灵”的描述完全相同。
这一次的图片和上一次没有太大区别————仅仅是某两张图片中的小精灵更换了衣服颜色!不过好歹是看出来不同图片中的是同一个小精灵了。我保存了第六次的结果,抱着试一试的心情,更换了关键词的顺序,把人物描述放在前面。
也许上天终于看不下去了,决定放过我这个在电脑前面捣鼓了近五个小时的可怜新人。第七次我终于得到了和想象中差不多的图片!我将其选为最终结果。
4.感想与计划
在整个操作过程中我很直观地感受到AI文生图技术的强大潜力。不需要任何绘画基础,只要几个简洁明了的关键词,普通人也可以得到不同风格精美的图片,这为许多人提供了通向艺术的新途径。而且AI作画的效率是人类画师难以企及的,实操过程中只需二十分钟就能得到八张完成度极高的作品。
但即便是最后的版本,八张图片中的人物形象仍不够统一,图片间的连续性仍不高。目前我也找不出很好的解决办法只得作罢。同时我了解到同期的其它参与者也反馈了与我类似的问题,我想这也许说明了目前AI模型的某些弱点?
在后续的学习中我有两个计划。其一,我想彻底清空自己baseline中AI训练图库的素材,再导入自己挑选的图片。也许这样可以得到一个能生成符合个人审美风格图片的特殊AI?我认为这值得尝试。
第二个计划灵感来源于人工智能系学姐的提议,她给了我一份关于prompt的资料,其中就有一些关于图片生成的关键词对应的效果表,我截取一部分作为参考。
我计划在之后的夏令营课程之外自己多多探索。或许这些关键词可以给我带来新的惊喜,让文生图AI成为我日后工作的得力助手也不一定呢?总归是值得一试的。
以及如果有兴趣,请在modelscope.cn/brand/view/… 给我的作品点赞和提建议哦!感谢大家的支持!