人人都能懂的大模型 · 第4期：训练数据：AI 的课本有多厚？1. 引子：你想当全科学霸吗？嘿！想象一下，如果你想成为

这是一个为所有人准备的大模型科普连载。我是你的朋友小d，陪您一起转AI的十多年大厂程序员，在这里，没有晦涩的代码，只有生活化的比喻。我们将一起揭开 AI 的神秘面纱，看清它是如何改变世界的。

1. 引子：你想当全科学霸吗？

嘿！想象一下，如果你想成为一个不仅懂天文地理，还能写诗造句、甚至精通各国语言的“全科学霸”，你需要读多少书？

按照普通人的阅读速度，哪怕你是个“书虫”，一辈子读上几千本书也就到头了。但阿模（我们的方头机器人朋友）可不这么想。他告诉我，如果他只读这么点书，他在 AI 圈里可能连“幼儿园”都毕不了业。

小明问阿模：“你到底读了多少书啊？”阿模憨厚地笑了笑：“不多不多，也就是把全世界图书馆里能找到的所有书，加上整个互联网上能爬到的所有网页，一次性全读完了而已。”

这可不是开玩笑。大模型之所以被称为“大”，不仅是因为它的体型（参数）大，更因为它的“书包”重得惊人。这期我们就来聊聊大模型的“教材”——训练数据。

2. 数据是什么：AI 的“五感”课本

很多人觉得数据就是一堆枯燥的数字，但在阿模眼里，数据就是他感知世界的“五感”。

对 AI 来说，文字、图片、声音、视频，通通都是他的课本。

文本数据：就像我们读书看报、刷知乎，这是 AI 学习逻辑和常识的基础。
图片数据：就像看图识物，AI 通过它知道“猫”长什么样，“山水画”是什么风格。
语音和视频：就是听人说话、看电影，学习情绪和动态的世界。

可以说，数据就是大模型的“精神食粮”。没有数据，大模型就是一个空有一身本领却没上过学的“天才荒废者”。

Token 的秘密：为什么 AI 不直接识字？

在这里，阿模要揭开一个有趣的小秘密：虽然我们说 AI 在“读书”，但它其实并不像人类那样一个字一个字地读，而是把内容切成了一块块的“Token”。

你可以把 Token 想象成**“语言的乐高积木”**。在英文里，一个单词可能是一个 Token，也可能被拆成几个零件（比如 "unhappy" 拆成 "un" 和 "happy"）；在中文里，一个汉字或者一个常用的词组往往就是一个 Token。

为什么要这么麻烦？因为如果让 AI 去背几万个汉字和几十万个单词，它会觉得非常混乱。但如果拆成 Token，它就能像玩乐高一样，通过组合这些“标准化零件”来理解任何语言。在中文环境下，1个汉字通常对应1到2个 Token，而英文中1个单词约等于0.75个 Token。所以，当我们说 GPT-4 读了 13 万亿个 Token 时，那真的是一个天文数字，相当于把整个人类文明积攒下来的精华都拆成积木重新拼了一遍。

3. 要多少数据：具体数字吓死人

大家对“多”可能没概念。我们拿最出名的 GPT 家族来举例。

GPT-3 训练时处理了 45TB 的原始数据，最终经过科学家们的层层精选，去掉了广告和乱码，提炼出了约 570GB 的高质量教材（约 3000 亿个 Token）。虽然 570GB 听起来没有 45TB 那么吓人，但那可是纯粹的、没有任何图片的纯文字！

不仅是文字，GPT-4 已经进化成了“多模态”选手。这意味着它不仅读了比前代多出十几倍的文字，还看了数以亿计的图片和视频。想象一下，你面前不仅摆着全世界的百科全书，还有全世界的相册和电影院，而你必须把它们全部塞进脑子里。

小明算了一笔账：如果一个人不吃不喝不睡，24 小时不停地阅读，要读完 GPT-3 看过的那些文字，大约需要连续读 5000 年！而要看完 GPT-4 所学习的内容，恐怕得从恐龙时代就开始读起。

4. 质量比数量更重要：拒绝垃圾食品

阿模常说一句话：“吃什么补什么。”

如果一个孩子整天只吃炸薯条和可乐（垃圾食品），身体肯定长不好。AI 也一样，如果给它喂的都是充满错别字、逻辑混乱甚至满是脏话的“垃圾数据”，那它学出来之后，说话也会变得颠三倒四，甚至动不动就骂人。

当人类数据“枯竭”：AI 能自学吗？

科学家们现在面临一个尴尬的问题：人类写的高质量文章快被 AI 吃光了！预计到 2026 年底，互联网上最精华的文本数据可能就会见底。这时候，**“合成数据”**的概念就出现了。

什么是合成数据？简单来说，就是让已经很聪明的 AI 自己写书，然后喂给另一个 AI 看，也就是“AI 教 AI”。这听起来有点像科幻电影，但它确实是未来的趋势。不过这也有风险：如果 AI 总是“自产自销”，会不会像近亲结婚一样，导致后代越来越笨、甚至产生奇怪的幻觉？这是目前科学家们最头疼的课题之一。

5. 数据偏见：AI 也会戴有色眼镜

如果一个人从小只看武侠小说，他可能会觉得世界上所有的矛盾都得靠华山论剑来解决。这就是“偏见”。

AI 的偏见，完全来自它读过的书。一个著名的黑历史是：某科技巨头（亚马逊）曾开发过一套招聘 AI，结果发现它严重歧视女性简历。

为什么呢？因为在它学习的过去十年的历史简历里，大部分入职的高级工程师都是男性。AI “聪明”地总结出了一个错误的规律：“哦，看来男性才适合当工程师。” 这就是数据偏见的杀伤力——它会把人类社会的刻板印象加倍放大。

6. 中文数据的挑战：阿模的“母语”课本够吗？

虽然阿模现在中文说得溜，但其实中文数据的获取比英文要难得多。在互联网的公共数据（比如 Common Crawl）中，英文内容占据了绝对的统治地位，而高质量、规范化的中文语料库（如悟道、CLUE 等）体量相对较小。

很多中文网页充满了碎片化信息、重复的广告或者是封闭在 APP 里的“孤岛数据”。这意味着，要训练一个懂中国文化、懂成语典故、还能完美理解中国式幽默的大模型，科学家们必须付出比训练英文模型更多的努力去挖掘和整理那些深藏在图书馆、古籍库里的宝贵中文财富。

7. 数据从哪来：搬空互联网的爬虫

这么多书和网页，科学家是怎么搞到手的？他们派出了“网络爬虫”。

最核心的来源包括：

Common Crawl：一个公益组织，每个月都会爬取几十亿个网页，它是 AI 最大的“粮仓”。
维基百科：虽然在 GPT 庞大的训练集中占比只有约 3%，但它却是最干净、最高质量的知识库，是 AI 的“参考字典”。
GitHub：全球程序员的代码仓库，AI 写代码的本事全靠它。
Books3：海量的电子书，教 AI 怎么写长篇大论。

当然，这背后也充满了争议。比如很多作家抱怨：“AI 没付钱就看了我的书！” 这种版权和伦理的博弈，到 2026 年依然是科技圈最火的话题。

8. 数据清洗：AI 也要“洗洗睡”

在把数据喂给阿模之前，科学家们还要进行一项巨大的工程——数据清洗。

原始的互联网数据非常脏，就像从河里打上来的水，里面有泥沙（垃圾广告）、有毒素（色情暴力）、还有不该有的东西（别人的身份证号或住址）。

这个过程比你想象的要复杂得多：

去重（De-duplication）：互联网上到处是互相抄袭的文章，如果 AI 重复读一句话一万遍，它就会变成一个只会复读的复读机。科学家得用复杂的算法把这些重复内容删掉。
安全审查：剔除那些反人类、色情或暴力的有害信息。
人工标注（RLHF 的序曲）：有时候，科学家还得请成千上万的人类“老师”，手动给数据打分，告诉 AI 哪些回答是优雅的，哪些是没礼貌的。

清洗数据的成本非常高，往往占到整个训练成本的 10-20%。只有经过这些步骤，原本 45TB 的“浑水”才能变成 570GB 的“纯净水”。

从 2018 年 GPT-1 的 5GB 到现在的 13 万亿 Token，训练数据的规模和精细程度都发生了翻天覆地的变化。

本期总结

训练数据就是 AI 的教材，决定了它能学到什么，也决定了它的脾气秉性。
质量大于数量：精选出的 570GB 纯净数据比 45TB 的原始垃圾堆有用得多。
数据偏见与挑战：AI 会学习人类的错误，且中文高质量数据的挖掘仍需努力。

课本读完了，接下来 AI 该怎么“背书”呢？光有书可不行，还得有过目不忘的本事和逻辑推演的能力。

下期预告： 读完几万亿词后，大模型内部发生了什么？为什么它能从一个“只会概率猜词”的机器，突然进化出像人类一样的推理能力？

下期我们聊：涌现效应——量变是怎么引起质变的？ 敬请期待！