为什么聪明的大模型也得学脑筋急转弯？预训练、微调、强化学习一次讲清把一个大模型想成一个非常聪明但有点书呆子气的人。AI

今天学了一点大模型训练的东西，脑子里突然冒出一个画面。

如果把一个大模型想象成一个非常聪明的人，那么 AI 公司每年花几个亿在做的事情，其实可以归成三件：

第一件，让他博览群书，把他养成一个百科全书式的聪明人。第二件，教他在不同的场合用什么样的方式说话——比如，让他学会玩脑筋急转弯。第三件，给他一把审美的尺子，让他知道什么样的答案算得上好。

这三件事，分别对应大模型训练里的三个关键步骤：预训练、微调、强化学习。

下面我想用这个聪明人的成长史，把这三件事讲清楚。

第一步：预训练——把这个聪明人造出来

让我们先来认识一下这个聪明人。

他从小就开始读书。不是几十本几百本，而是几乎整个互联网的内容：百科、教科书、论文、小说、新闻、博客、代码仓库、公开的聊天记录。

读完之后，他懂历史，懂物理，能写诗，能讲笑话，会用三十种语言回答问题，能解微积分，能教你做菜，也能给你写求职邮件。

这一步在 AI 公司里叫预训练。它是整个训练过程里最贵的一步——OpenAI 训 GPT-4 烧了几千万美元，Google 训 Gemini 也是同等数量级。烧的不是算法，是显卡和电费。

预训练结束的时候，这个聪明人已经准备好了。他几乎什么都懂。

但他还不算"好用"。你跟他正常说话，他也能正常回答，但他不知道在某些特殊的场景里要切换思维方式。

举个例子。你给他出一道脑筋急转弯：

树上有十只鸟，开枪打死一只，还剩几只？

他可能一本正经地回答：从动物行为学上看，剩下的鸟在听到枪声后会立刻飞走，所以树上一只都不剩。

这答得没毛病，但你想要的明显不是这种回答。你想要的是那种带点反逻辑幽默感的答法——「九只啊，剩下的鸟都被吓死了」。

他认真答了，只是这类题原本就需要换一套思维方式去看。

第二步：微调——教这个聪明人玩游戏

现在你想让他会玩脑筋急转弯。怎么办？

你给他准备一批题。不用太多，几十道、一百道、最多几百道就够。每道题你都给他展示一个答得漂亮的范例：

Q：树上有十只鸟，开枪打死一只，还剩几只？ A：九只啊，剩下的鸟都被吓死了。

Q：什么东西越洗越脏？ A：水啊。

Q：地上躺着一只狗，怎么把它弄醒？ A：你别躺它就站起来了。

他陪你玩五六个回合之后，会开窍——哦，原来遇到这类题，要切到反逻辑思维模式去答。再问他类似的问题，他答得有模有样。你出一道他完全没见过的新题，他也能答得很有那个味儿。

这就是**微调（Fine-tuning）**在做的事。

请注意一个细节：他没有学到任何新知识。他原本就知道什么是树、什么是鸟、什么是枪。微调没有给他添加任何信息。微调只是在他脑子里某个角落画了一条新的路径——告诉他遇到这种问题走这条路。

这件事的代价低得不可思议：几百条样本，一张消费级显卡，几十分钟训练。

这也是为什么这两年市面上有大量「我用微调把模型调成了医生/律师/客服」的项目能跑通——它们做的事情，其实就是用很少的数据，激活这个聪明人已经具备的能力，让他在某种特定场景下切换到合适的回答风格。

第三步前的小插曲：欠拟合和过拟合

但你立刻会遇到两种翻车场景。

第一种叫欠拟合。 你只给这个聪明人讲了一两道脑筋急转弯。他对这套玩法完全没建立起感觉。你再问他类似的题，他还是按常规思路答你。学得不够，肌肉记忆还没成型。

第二种叫过拟合。 你给他出了 500 道脑筋急转弯，连续三天每道题让他看 20 遍，让他把每道答案都背得滚瓜烂熟。结果是什么？

你出一道新题，他的反应变成了另一种——他不去想答案，他直接去翻题库找一道最像的，把记住的答案套上去。套不上时，他会说一些莫名其妙的话，比如把题库里第 137 题的答案硬安到一个完全无关的问题上。

更要命的是，如果他过度沉浸在脑筋急转弯模式里，他原本会做的别的事也开始被这种思维方式污染。你问他「1 加 1 等于几」，他可能回答你「看你怎么定义加」。原本明确的事实，被他用错位的思维方式给搞砸了。

这种现象在 AI 里有个专门的名字叫灾难性遗忘——为了在某一类任务上学得过分好，把其他任务的能力都给丢了。

所以微调里有一句被反复验证的话：最好的状态是朦胧的会玩感。要的是知道这是个游戏，知道大致的玩法，但每次都还在用自己的脑子去想一个答案，而不是去翻题库。

这种朦胧的会玩感，工业界叫良好泛化。所有训练算法的难题，归根到底都是怎么找到这个状态。

第三步：强化学习——让这个聪明人有自己的审美

到目前为止，这个聪明人会脑筋急转弯了。但他答得没什么品味。

他知道要切到反逻辑模式，但同一道题他能想出三种答法：

A：九只，剩下的死了。 B：一只都没有，剩下的都飞走了。 C：还剩九只，但鸟会失去同伴所以心情不好。

哪种最好笑？哪种最有那种让人忍不住嘴角上扬的瞬间？他自己也不知道。

这时候你做一件事。每次他给出一个答案，你就告诉他：这个挺好。那个不如刚才那个。这个一般。你不亲自教他答案，你只是在他答完之后评价。

几百轮、几千轮之后，他心里慢慢长出一把尺。这把尺不是任何一道题的标准答案，而是一种对什么算好的感觉。他开始知道什么样的答案算妙，什么样的算平淡，什么样的算硬塞。

这就是**强化学习（Reinforcement Learning）**在大模型训练里做的事。

最常见的具体方法叫 RLHF，全称叫人类反馈强化学习。OpenAI 训 ChatGPT、Anthropic 训 Claude 的时候，都雇了大量的人类标注员去给模型的回答打分，让模型在「哪个答案更好」上慢慢长出一种品味。

近一年业界还出现了一种更省事的做法叫 DPO，工程上更简单，但目的是一样的——让模型长出一把审美的尺，而不是死记某个具体的答案。

微调和强化学习的差别就在这里。前者像是给他一万个样品看，让他跟着学；后者是他答完之后旁边有人打分，让他慢慢长出自己的判断。一个聪明人之所以让你觉得不光懂得多，而且有判断有品位——通常是因为他经历过这一步。

一张图把三个阶段摆在一起

把这三步摊开看，AI 公司每年花几个亿在做的事情其实就一句话：把一个潜在的聪明人，养成一个既博学、又懂场合、还有审美的成年人。

阶段	它在教什么	成年人成长里的对应
预训练	让模型博学	一个孩子读完了所有的书
微调	让模型懂场合	教他在不同圈子里怎么说话
强化学习	让模型有审美	让他长出自己的判断和品味

我们日常用到的 ChatGPT、Claude、Gemini、DeepSeek，底子都是经过这三段培养的聪明人。

如果哪一段没做透，你能立刻感受到——

预训练不够，模型会无知，回答漏洞百出。

微调不够，模型答得很书面、不够贴你的具体场景。

强化学习不够，模型答得啰嗦、没观点、什么都想说一点又都说不深。

反过来，三段都做到位，你会觉得它既懂行又会聊天还有判断。那种顺滑的感觉不是凭空来的，是用几亿美元加几百万人的反馈加无数次实验调出来的。

写在最后

回到我今天学到的那点东西。

我以前一直以为微调和强化学习是某种再训练。学完之后才发现，它们更像是一个社会化的过程——把一个潜力巨大但有点书呆子气的聪明人，慢慢调教成一个能在不同场合得体回答你的成年人。

这或许也能解释一个常见的体验：为什么有时候你跟某个 AI 聊天，会觉得它知识渊博但情商欠缺。它的预训练做得不错，但微调和强化学习还在路上。它知道很多事，但还没学会在你这个具体的场合里，用什么样的方式回答你。

模型训练的进展，从一个角度看，是算法和算力的进步。从另一个角度看，是怎么把一个聪明人真正养得懂事。