人人都能懂的大模型 · 第9期：预训练：AI 的九年义务教育1. 引子：数据清洗是开学第一课想象一下，你打算招聘一个员

这里是《人人都能懂的大模型》系列科普连载。我们不讲深奥的数学公式，只讲你听得懂的 AI 逻辑。今天，我们要聊聊那个耗资数亿、烧掉小镇一年电量的疯狂过程——“预训练”。

1. 引子：数据清洗是开学第一课

想象一下，你打算招聘一个员工。如果这个候选人连话都不会说、字都不认识，你会直接教他怎么写代码或者写公关稿吗？当然不会。他得先接受十几年的学校教育，学会认字、造句、逻辑思考，掌握“水是液体”、“苹果是水果”这些常识，然后才能去学专业技能。

但在大模型“上学”之前，还有一个至关重要的步骤：筛选课本。互联网上的数据浩如烟海，但也充斥着垃圾广告、乱码、甚至是有害信息。如果 AI 照单全收，它就会变成一个满口脏话、逻辑混乱的怪物。因此，在正式“读书”前，工程师们必须进行大规模的数据脱敏与清洗，去掉重复内容和“毒素”，只留下高质量的知识。

大模型在变成你的“全能助手”之前，其实就是一个对世界一窍不通的“白纸机器人”。在它正式上岗干活（比如帮你写周报、画图）之前，它必须先经历一个漫长而枯燥的“上学”阶段，这个阶段就是预训练（Pre-training）。

2. 预训练在学什么：从 Token 化开始

预训练的目标是让模型拥有通用能力。这就好比小学生学语文，老师不会直接教你写《百年孤独》，而是教你认字、组词、造句。

AI 理解语言的第一步叫做 Token 化（Tokenization）。它并不直接读单词，而是把句子切成一小块一小块的“碎片”（Token）。比如“我爱大模型”会被切分为“我”、“爱”、“大”、“模型”。

在预训练阶段，AI 学习的是：

语法规则：知道主谓宾怎么放，说话才像人样。
逻辑常识：知道“太阳从东边升起”是事实，“把大象塞进冰箱”不符合常理。
世界知识：了解历史、地理、科学的基本概念。

这是一种“无监督学习”。不需要人类在旁边告诉它“这张图是猫”、“这句话是错的”，它只是像一块巨大的海绵，在浩瀚的数据海洋里自行吸收规律。

3. 两种学习方法：双向“填空” vs 单向“接龙”

AI 上学的方式主要有两种，非常像我们小时候做的语文题。

第一种是完形填空（Masked Language Modeling，简称 MLM）。这是 BERT 模型最擅长的。它是“双向”的，会同时看空格前后的上下文。比如：“今天天气很[ ]，我想去公园散步。”AI 会根据“天气”和“散步”共同推断出空格里是“好”。

第二种是续写接龙（Causal Language Modeling，简称 CLM）。这是 GPT 系列采用的方法。它是“单向”的，只能根据前面的词预测下一个词。比如：“今天” -> 下一个词可能是“天气”； “今天天气” -> 下一个词可能是“真”； “今天天气真” -> 下一个词可能是“好”。

虽然 GPT 的逻辑更像简单的预测，但当它重复了几万亿次后，竟然奇迹般地“悟”出了深刻的智慧。

4. 预训练的规模：这是算力阵列的艺术

现在的 AI “食量”已经远超几年前。GPT-3 当年“吃”了 3000 亿个 Token，而到了 2025 年，像 DeepSeek 或 Llama-3 这样的顶级模型，训练数据量已经达到了惊人的 15 万亿 Token 量级。

为了处理这些天文数字般的数据，我们需要成千上万张 GPU。这不仅仅是显卡的堆砌，而是一个复杂的并行计算阵列。数万张显卡通过高速网络连接，像一支训练有素的军队，将一个巨大的数学任务切分成无数份同时计算。

GPT-4：训练成本据估算超过 1 亿美元。
DeepSeek-V3：通过极致的技术优化，将研发费用压低到了 558 万美元，这在行业内引起了巨大轰动。

5. 涌现能力：模型变大后的“开窍”时刻

预训练中最神奇的现象叫做涌现（Emergent Abilities）。

在模型规模较小时，AI 表现得非常平庸，甚至有点笨。但当参数量和数据量突破某个临界点（比如达到百亿级别）时，模型会突然像“打通了任督二脉”一样，掌握了它在训练数据中并没有明确学过的复杂逻辑推理、多步数学运算等能力。

这种“量变引起质变”的过程，是目前大模型拥有智慧的核心秘密。

6. 监控训练：看 Loss 函数一路向下

在训练的时候，工程师们会盯着一个关键指标：损失函数（Loss Function）。

你可以把“Loss”理解为 AI 在考试中“犯错的概率”或“扣的分数”。刚开始训练时，AI 满嘴胡话，Loss 值极高；随着训练步数的增加，它的预测越来越准，Loss 曲线会从左上向右下平滑降低。

当曲线降到一定水平并趋于平稳时，工程师们就知道这届模型已经“学有所成”了。

7. 毕业生的遗憾：它还不会“听话”

虽然预训练让 AI 成了“百事通”，但这时候的它还被称为基座模型（Base Model）。

它学到了语法、常识，甚至是“涌现”出的推理能力。但它有一个致命毛病：它只会“续写”，不会“对话”。如果你问它：“请帮我写一封辞职信。”它可能接一句：“辞职信怎么写？首先你要准备一张纸……”因为它以为你在写关于辞职信的科普文，而不是在给它下指令。

8. 电力猛兽与效率革命

训练大模型是极度耗电的。训练一次 GPT-4 消耗的电力，足以供一个小镇用上一年。这就是为什么顶级 AI 公司往往要把数据中心建在水电站或寒冷地区。

然而，随着 DeepSeek 等国产模型的崛起，我们发现通过更聪明的算法，可以在耗电更少、成本更低的前提下，达到甚至超越顶级模型的水平。这证明了预训练不只是“暴力美学”，更是“效率竞赛”。

小明问：“既然它还不听话，那我们怎么把它变成贴心的助手？” 阿模推了推眼镜：“这就涉及到下一步——微调。预训练是义务教育，微调就是入职培训。”

下期预告： 读完万卷书的“基座模型”只是个满腹经纶的“书呆子”。如何通过一种叫做“指令微调”的魔法，让它学会听懂人话、乖乖办公？下一期，我们聊聊：《微调：从书呆子到全能助手的变形记》。