这里是《人人都能懂的大模型》系列科普连载。我们不讲深奥的数学公式,只讲你听得懂的 AI 逻辑。今天,我们要聊聊那个耗资数亿、烧掉小镇一年电量的疯狂过程——“预训练”。
1. 引子:数据清洗是开学第一课
想象一下,你打算招聘一个员工。如果这个候选人连话都不会说、字都不认识,你会直接教他怎么写代码或者写公关稿吗?当然不会。他得先接受十几年的学校教育,学会认字、造句、逻辑思考,掌握“水是液体”、“苹果是水果”这些常识,然后才能去学专业技能。
但在大模型“上学”之前,还有一个至关重要的步骤:筛选课本。互联网上的数据浩如烟海,但也充斥着垃圾广告、乱码、甚至是有害信息。如果 AI 照单全收,它就会变成一个满口脏话、逻辑混乱的怪物。因此,在正式“读书”前,工程师们必须进行大规模的数据脱敏与清洗,去掉重复内容和“毒素”,只留下高质量的知识。
大模型在变成你的“全能助手”之前,其实就是一个对世界一窍不通的“白纸机器人”。在它正式上岗干活(比如帮你写周报、画图)之前,它必须先经历一个漫长而枯燥的“上学”阶段,这个阶段就是预训练(Pre-training)。
2. 预训练在学什么:从 Token 化开始
预训练的目标是让模型拥有通用能力。这就好比小学生学语文,老师不会直接教你写《百年孤独》,而是教你认字、组词、造句。
AI 理解语言的第一步叫做 Token 化(Tokenization)。它并不直接读单词,而是把句子切成一小块一小块的“碎片”(Token)。比如“我爱大模型”会被切分为“我”、“爱”、“大”、“模型”。
在预训练阶段,AI 学习的是:
- 语法规则:知道主谓宾怎么放,说话才像人样。
- 逻辑常识:知道“太阳从东边升起”是事实,“把大象塞进冰箱”不符合常理。
- 世界知识:了解历史、地理、科学的基本概念。
这是一种“无监督学习”。不需要人类在旁边告诉它“这张图是猫”、“这句话是错的”,它只是像一块巨大的海绵,在浩瀚的数据海洋里自行吸收规律。
3. 两种学习方法:双向“填空” vs 单向“接龙”
AI 上学的方式主要有两种,非常像我们小时候做的语文题。
第一种是完形填空(Masked Language Modeling,简称 MLM)。这是 BERT 模型最擅长的。它是“双向”的,会同时看空格前后的上下文。比如:“今天天气很[ ],我想去公园散步。”AI 会根据“天气”和“散步”共同推断出空格里是“好”。
第二种是续写接龙(Causal Language Modeling,简称 CLM)。这是 GPT 系列采用的方法。它是“单向”的,只能根据前面的词预测下一个词。 比如:“今天” -> 下一个词可能是“天气”; “今天天气” -> 下一个词可能是“真”; “今天天气真” -> 下一个词可能是“好”。
虽然 GPT 的逻辑更像简单的预测,但当它重复了几万亿次后,竟然奇迹般地“悟”出了深刻的智慧。
4. 预训练的规模:这是算力阵列的艺术
现在的 AI “食量”已经远超几年前。GPT-3 当年“吃”了 3000 亿个 Token,而到了 2025 年,像 DeepSeek 或 Llama-3 这样的顶级模型,训练数据量已经达到了惊人的 15 万亿 Token 量级。
为了处理这些天文数字般的数据,我们需要成千上万张 GPU。这不仅仅是显卡的堆砌,而是一个复杂的并行计算阵列。数万张显卡通过高速网络连接,像一支训练有素的军队,将一个巨大的数学任务切分成无数份同时计算。
- GPT-4:训练成本据估算超过 1 亿美元。
- DeepSeek-V3:通过极致的技术优化,将研发费用压低到了 558 万美元,这在行业内引起了巨大轰动。
5. 涌现能力:模型变大后的“开窍”时刻
预训练中最神奇的现象叫做涌现(Emergent Abilities)。
在模型规模较小时,AI 表现得非常平庸,甚至有点笨。但当参数量和数据量突破某个临界点(比如达到百亿级别)时,模型会突然像“打通了任督二脉”一样,掌握了它在训练数据中并没有明确学过的复杂逻辑推理、多步数学运算等能力。
这种“量变引起质变”的过程,是目前大模型拥有智慧的核心秘密。
6. 监控训练:看 Loss 函数一路向下
在训练的时候,工程师们会盯着一个关键指标:损失函数(Loss Function)。
你可以把“Loss”理解为 AI 在考试中“犯错的概率”或“扣的分数”。刚开始训练时,AI 满嘴胡话,Loss 值极高;随着训练步数的增加,它的预测越来越准,Loss 曲线会从左上向右下平滑降低。
当曲线降到一定水平并趋于平稳时,工程师们就知道这届模型已经“学有所成”了。
7. 毕业生的遗憾:它还不会“听话”
虽然预训练让 AI 成了“百事通”,但这时候的它还被称为基座模型(Base Model)。
它学到了语法、常识,甚至是“涌现”出的推理能力。但它有一个致命毛病:它只会“续写”,不会“对话”。如果你问它:“请帮我写一封辞职信。”它可能接一句:“辞职信怎么写?首先你要准备一张纸……”因为它以为你在写关于辞职信的科普文,而不是在给它下指令。
8. 电力猛兽与效率革命
训练大模型是极度耗电的。训练一次 GPT-4 消耗的电力,足以供一个小镇用上一年。这就是为什么顶级 AI 公司往往要把数据中心建在水电站或寒冷地区。
然而,随着 DeepSeek 等国产模型的崛起,我们发现通过更聪明的算法,可以在耗电更少、成本更低的前提下,达到甚至超越顶级模型的水平。这证明了预训练不只是“暴力美学”,更是“效率竞赛”。
小明问:“既然它还不听话,那我们怎么把它变成贴心的助手?” 阿模推了推眼镜:“这就涉及到下一步——微调。预训练是义务教育,微调就是入职培训。”
下期预告: 读完万卷书的“基座模型”只是个满腹经纶的“书呆子”。如何通过一种叫做“指令微调”的魔法,让它学会听懂人话、乖乖办公?下一期,我们聊聊:《微调:从书呆子到全能助手的变形记》。