Datawhale X 魔搭 AI夏令营|task2小白向学习笔记【Task2】精读代码，实战进阶一、任务概览 Tas

【Task2】精读代码，实战进阶

一、任务概览

Task2在Task1的基础上进一步深入，目的是对代码进行细致的理解和学习，特别关注于使用大语言模型来辅助理解和阅读代码。利用AI提升自学习能力，并应用于后续的挑战中。 AI夏令营学习链接：linklearner.com/activity/14…

二、了解AI生图前沿

引言

AI生图，即人工智能生成图像，是AIGC（AI-Generated Content）领域的一个重要分支。随着技术的发展，AI生图已经开始颠覆传统的内容创作方式，对摄影、美术等艺术领域产生了深远的影响。了解AI生图的前沿动态，对于普通人、创作者和技术人都具有重要意义。普通人可以通过它避免被欺骗，创作者可以提高效率，而技术人则可以开发更实用的工具。

AI生图的历史可以追溯到20世纪70年代，但真正的突破发生在2012年，当时吴恩达训练出的模型生成了“猫脸”图像，是基于深度神经网络训练的结果。随后，谷歌的Deep Dream和OpenAI的DALL-E等模型相继问世，标志着AI生图技术开始走向成熟。

一般来说，AI生图模型属于多模态机器学习模型，通过海量的图库和文本描述的深度神经网络学习，最终的目标是可以根据输入的指示生成符合语义的图片。

AI生图的难点与挑战

尽管AI生图技术取得了显著进展，但仍面临着诸多挑战。例如，早期的AI模型在生成“手”等复杂结构时常常出现问题。此外，AI生成的图像往往存在所谓的“AI味”，即与真实场景存在违和感。解决这些问题，需要模型能够更准确地理解和生成图像的细节和逻辑。

Kolors（可图）模型： 快手开源的文本到图像生成模型，支持中英文输入，并能生成高质量、逼真的图像。

链接：可图 · 模型库 (modelscope.cn)

（prompt模板） 可图优质咒语书 · 数据集 (modelscope.cn)

魔搭社区：AI生图的学习和实践平台

首页 · 魔搭社区 (modelscope.cn)

三、精读baseline代码

> AI工具：通义千问

链接：通义tongyi.ai_你的全能AI助手 (aliyun.com)

我们可以使用通义大模型作为我们的AI助教，通过它来学习和精读baseline的代码。

输出的结果如下。可以看到代码已经被清晰地梳理了，对某一行或者某一句有不理解的地方，也可以随时提问，十分方便。我们要善于使用ai工具，还可以反过来用ai来学习ai，实现一个闭环。

作为ai跨专业的小白，baseline的代码注释也已经十分清晰明了，我有几处不太明白，于是我逐个去问通义千问。（真的特别细致，强推！）作为跨专业有python基础的学习者，通义解释得也很通俗易懂，重要的概念和库等都进行了说明，例如json、tqdm等。让我的学习之路事半功倍~

再加上夏令营里嘉宾和老师们的分享，感觉收获满满~

> 相关学习链接传送门

查找Python包的官方仓库 pypi.org

文件操作Python文件读写详解（非常详细）_python 了解文件读写-CSDN博客

Data-Juicer github.com/alibaba/dat…

DiffSynth-Studio github.com/your-organi…

全网最全提示词教程—手把手教你用Stable Diffusion写好提示词！_stable diffusion 提示词语法-CSDN博客

PyTorch pytorch-lightning.ai

Pandas pandas.pydata.org/docs/

TQDM github.com/tqdm/tqdm

如何区分人工智能生成的图像与真实照片（上）_ai创作图片与真实图片对比-CSDN博客

四、实战演练

上一次的提示词是直接依据baseline的，这次笔者自己根据赛题要求设计。根据上方所给的可图优质咒语书的链接，写prompt提示词。角色参考了笔者自己的私设，校园学生的角色设定，部分效果如下图。（还有许多不足之处，期待下一个task的学习！）