【Task2】精读代码,实战进阶
一、任务概览
Task2在Task1的基础上进一步深入,目的是对代码进行细致的理解和学习,特别关注于使用大语言模型来辅助理解和阅读代码。利用AI提升自学习能力,并应用于后续的挑战中。 AI夏令营学习链接:linklearner.com/activity/14…
二、了解AI生图前沿
引言
AI生图,即人工智能生成图像,是AIGC(AI-Generated Content)领域的一个重要分支。随着技术的发展,AI生图已经开始颠覆传统的内容创作方式,对摄影、美术等艺术领域产生了深远的影响。了解AI生图的前沿动态,对于普通人、创作者和技术人都具有重要意义。普通人可以通过它避免被欺骗,创作者可以提高效率,而技术人则可以开发更实用的工具。
AI生图的历史可以追溯到20世纪70年代,但真正的突破发生在2012年,当时吴恩达训练出的模型生成了“猫脸”图像,是基于深度神经网络训练的结果。随后,谷歌的Deep Dream和OpenAI的DALL-E等模型相继问世,标志着AI生图技术开始走向成熟。
一般来说,AI生图模型属于多模态机器学习模型,通过海量的图库和文本描述的深度神经网络学习,最终的目标是可以根据输入的指示生成符合语义的图片。
AI生图的难点与挑战
尽管AI生图技术取得了显著进展,但仍面临着诸多挑战。例如,早期的AI模型在生成“手”等复杂结构时常常出现问题。此外,AI生成的图像往往存在所谓的“AI味”,即与真实场景存在违和感。解决这些问题,需要模型能够更准确地理解和生成图像的细节和逻辑。
Kolors(可图)模型: 快手开源的文本到图像生成模型,支持中英文输入,并能生成高质量、逼真的图像。
(prompt模板) 可图优质咒语书 · 数据集 (modelscope.cn)
魔搭社区:AI生图的学习和实践平台
三、精读baseline代码
> AI工具:通义千问
我们可以使用通义大模型作为我们的AI助教,通过它来学习和精读baseline的代码。
输出的结果如下。可以看到代码已经被清晰地梳理了,对某一行或者某一句有不理解的地方,也可以随时提问,十分方便。我们要善于使用ai工具,还可以反过来用ai来学习ai,实现一个闭环。
作为ai跨专业的小白,baseline的代码注释也已经十分清晰明了,我有几处不太明白,于是我逐个去问通义千问。(真的特别细致,强推!)作为跨专业有python基础的学习者,通义解释得也很通俗易懂,重要的概念和库等都进行了说明,例如json、tqdm等。让我的学习之路事半功倍~
再加上夏令营里嘉宾和老师们的分享,感觉收获满满~
> 相关学习链接传送门
查找Python包的官方仓库 pypi.org
Data-Juicer github.com/alibaba/dat…
DiffSynth-Studio github.com/your-organi…
全网最全提示词教程—手把手教你用Stable Diffusion写好提示词!_stable diffusion 提示词语法-CSDN博客
PyTorch pytorch-lightning.ai
Pandas pandas.pydata.org/docs/
TQDM github.com/tqdm/tqdm
四、实战演练
上一次的提示词是直接依据baseline的,这次笔者自己根据赛题要求设计。 根据上方所给的可图优质咒语书的链接,写prompt提示词。 角色参考了笔者自己的私设,校园学生的角色设定,部分效果如下图。(还有许多不足之处,期待下一个task的学习!)