Datawhale X 魔搭 AI夏令营|task2小白向学习笔记

152 阅读4分钟

【Task2】精读代码,实战进阶

一、任务概览

Task2在Task1的基础上进一步深入,目的是对代码进行细致的理解和学习,特别关注于使用大语言模型来辅助理解和阅读代码。利用AI提升自学习能力,并应用于后续的挑战中。 AI夏令营学习链接:linklearner.com/activity/14…

二、了解AI生图前沿

引言

AI生图,即人工智能生成图像,是AIGC(AI-Generated Content)领域的一个重要分支。随着技术的发展,AI生图已经开始颠覆传统的内容创作方式,对摄影、美术等艺术领域产生了深远的影响。了解AI生图的前沿动态,对于普通人、创作者和技术人都具有重要意义。普通人可以通过它避免被欺骗,创作者可以提高效率,而技术人则可以开发更实用的工具。

AI生图的历史可以追溯到20世纪70年代,但真正的突破发生在2012年,当时吴恩达训练出的模型生成了“猫脸”图像,是基于深度神经网络训练的结果。随后,谷歌的Deep Dream和OpenAI的DALL-E等模型相继问世,标志着AI生图技术开始走向成熟。

一般来说,AI生图模型属于多模态机器学习模型,通过海量的图库和文本描述的深度神经网络学习,最终的目标是可以根据输入的指示生成符合语义的图片。

AI生图的难点与挑战

尽管AI生图技术取得了显著进展,但仍面临着诸多挑战。例如,早期的AI模型在生成“手”等复杂结构时常常出现问题。此外,AI生成的图像往往存在所谓的“AI味”,即与真实场景存在违和感。解决这些问题,需要模型能够更准确地理解和生成图像的细节和逻辑。

Kolors(可图)模型: 快手开源的文本到图像生成模型,支持中英文输入,并能生成高质量、逼真的图像。

链接:可图 · 模型库 (modelscope.cn)

(prompt模板) 可图优质咒语书 · 数据集 (modelscope.cn)

魔搭社区:AI生图的学习和实践平台

首页 · 魔搭社区 (modelscope.cn)

1723642665571.png

三、精读baseline代码

> AI工具:通义千问

链接:通义tongyi.ai_你的全能AI助手 (aliyun.com)

我们可以使用通义大模型作为我们的AI助教,通过它来学习和精读baseline的代码。

1723643185046.png

输出的结果如下。可以看到代码已经被清晰地梳理了,对某一行或者某一句有不理解的地方,也可以随时提问,十分方便。我们要善于使用ai工具,还可以反过来用ai来学习ai,实现一个闭环。

1723643325986.png

作为ai跨专业的小白,baseline的代码注释也已经十分清晰明了,我有几处不太明白,于是我逐个去问通义千问。(真的特别细致,强推!)作为跨专业有python基础的学习者,通义解释得也很通俗易懂,重要的概念和库等都进行了说明,例如json、tqdm等。让我的学习之路事半功倍~

再加上夏令营里嘉宾和老师们的分享,感觉收获满满~

1723643838639.png

> 相关学习链接传送门

四、实战演练

上一次的提示词是直接依据baseline的,这次笔者自己根据赛题要求设计。 根据上方所给的可图优质咒语书的链接,写prompt提示词。 角色参考了笔者自己的私设,校园学生的角色设定,部分效果如下图。(还有许多不足之处,期待下一个task的学习!)

1 (1).jpg 7.jpg