为什么聪明的大模型也得学脑筋急转弯?预训练、微调、强化学习一次讲清

0 阅读8分钟

今天学了一点大模型训练的东西,脑子里突然冒出一个画面。

如果把一个大模型想象成一个非常聪明的人,那么 AI 公司每年花几个亿在做的事情,其实可以归成三件:

第一件,让他博览群书,把他养成一个百科全书式的聪明人。 第二件,教他在不同的场合用什么样的方式说话——比如,让他学会玩脑筋急转弯。 第三件,给他一把审美的尺子,让他知道什么样的答案算得上好。

这三件事,分别对应大模型训练里的三个关键步骤:预训练、微调、强化学习

下面我想用这个聪明人的成长史,把这三件事讲清楚。

第一步:预训练——把这个聪明人造出来

让我们先来认识一下这个聪明人。

他从小就开始读书。不是几十本几百本,而是几乎整个互联网的内容:百科、教科书、论文、小说、新闻、博客、代码仓库、公开的聊天记录。

读完之后,他懂历史,懂物理,能写诗,能讲笑话,会用三十种语言回答问题,能解微积分,能教你做菜,也能给你写求职邮件。

这一步在 AI 公司里叫预训练。它是整个训练过程里最贵的一步——OpenAI 训 GPT-4 烧了几千万美元,Google 训 Gemini 也是同等数量级。烧的不是算法,是显卡和电费。

预训练结束的时候,这个聪明人已经准备好了。他几乎什么都懂

但他还不算"好用"。你跟他正常说话,他也能正常回答,但他不知道在某些特殊的场景里要切换思维方式。

举个例子。你给他出一道脑筋急转弯:

树上有十只鸟,开枪打死一只,还剩几只?

他可能一本正经地回答:从动物行为学上看,剩下的鸟在听到枪声后会立刻飞走,所以树上一只都不剩。

这答得没毛病,但你想要的明显不是这种回答。你想要的是那种带点反逻辑幽默感的答法——「九只啊,剩下的鸟都被吓死了」。

他认真答了,只是这类题原本就需要换一套思维方式去看。

第二步:微调——教这个聪明人玩游戏

现在你想让他会玩脑筋急转弯。怎么办?

你给他准备一批题。不用太多,几十道、一百道、最多几百道就够。每道题你都给他展示一个答得漂亮的范例:

Q:树上有十只鸟,开枪打死一只,还剩几只? A:九只啊,剩下的鸟都被吓死了。

Q:什么东西越洗越脏? A:水啊。

Q:地上躺着一只狗,怎么把它弄醒? A:你别躺它就站起来了。

他陪你玩五六个回合之后,会开窍——哦,原来遇到这类题,要切到反逻辑思维模式去答。再问他类似的问题,他答得有模有样。你出一道他完全没见过的新题,他也能答得很有那个味儿。

这就是**微调(Fine-tuning)**在做的事。

请注意一个细节:他没有学到任何新知识。他原本就知道什么是树、什么是鸟、什么是枪。微调没有给他添加任何信息。微调只是在他脑子里某个角落画了一条新的路径——告诉他遇到这种问题走这条路。

这件事的代价低得不可思议:几百条样本,一张消费级显卡,几十分钟训练。

这也是为什么这两年市面上有大量「我用微调把模型调成了医生/律师/客服」的项目能跑通——它们做的事情,其实就是用很少的数据,激活这个聪明人已经具备的能力,让他在某种特定场景下切换到合适的回答风格。

第三步前的小插曲:欠拟合和过拟合

但你立刻会遇到两种翻车场景。

第一种叫欠拟合。 你只给这个聪明人讲了一两道脑筋急转弯。他对这套玩法完全没建立起感觉。你再问他类似的题,他还是按常规思路答你。学得不够,肌肉记忆还没成型。

第二种叫过拟合。 你给他出了 500 道脑筋急转弯,连续三天每道题让他看 20 遍,让他把每道答案都背得滚瓜烂熟。结果是什么?

你出一道新题,他的反应变成了另一种——他不去想答案,他直接去翻题库找一道最像的,把记住的答案套上去。套不上时,他会说一些莫名其妙的话,比如把题库里第 137 题的答案硬安到一个完全无关的问题上。

更要命的是,如果他过度沉浸在脑筋急转弯模式里,他原本会做的别的事也开始被这种思维方式污染。你问他「1 加 1 等于几」,他可能回答你「看你怎么定义加」。原本明确的事实,被他用错位的思维方式给搞砸了。

这种现象在 AI 里有个专门的名字叫灾难性遗忘——为了在某一类任务上学得过分好,把其他任务的能力都给丢了。

所以微调里有一句被反复验证的话:最好的状态是朦胧的会玩感。要的是知道这是个游戏,知道大致的玩法,但每次都还在用自己的脑子去想一个答案,而不是去翻题库。

这种朦胧的会玩感,工业界叫良好泛化。所有训练算法的难题,归根到底都是怎么找到这个状态。

第三步:强化学习——让这个聪明人有自己的审美

到目前为止,这个聪明人会脑筋急转弯了。但他答得没什么品味

他知道要切到反逻辑模式,但同一道题他能想出三种答法:

A:九只,剩下的死了。 B:一只都没有,剩下的都飞走了。 C:还剩九只,但鸟会失去同伴所以心情不好。

哪种最好笑?哪种最有那种让人忍不住嘴角上扬的瞬间?他自己也不知道。

这时候你做一件事。每次他给出一个答案,你就告诉他:这个挺好。那个不如刚才那个。这个一般。你不亲自教他答案,你只是在他答完之后评价

几百轮、几千轮之后,他心里慢慢长出一把尺。这把尺不是任何一道题的标准答案,而是一种对什么算好的感觉。他开始知道什么样的答案算妙,什么样的算平淡,什么样的算硬塞。

这就是**强化学习(Reinforcement Learning)**在大模型训练里做的事。

最常见的具体方法叫 RLHF,全称叫人类反馈强化学习。OpenAI 训 ChatGPT、Anthropic 训 Claude 的时候,都雇了大量的人类标注员去给模型的回答打分,让模型在「哪个答案更好」上慢慢长出一种品味。

近一年业界还出现了一种更省事的做法叫 DPO,工程上更简单,但目的是一样的——让模型长出一把审美的尺,而不是死记某个具体的答案。

微调和强化学习的差别就在这里。前者像是给他一万个样品看,让他跟着学;后者是他答完之后旁边有人打分,让他慢慢长出自己的判断。一个聪明人之所以让你觉得不光懂得多,而且有判断有品位——通常是因为他经历过这一步。

一张图把三个阶段摆在一起

把这三步摊开看,AI 公司每年花几个亿在做的事情其实就一句话:把一个潜在的聪明人,养成一个既博学、又懂场合、还有审美的成年人。

阶段它在教什么成年人成长里的对应
预训练让模型博学一个孩子读完了所有的书
微调让模型懂场合教他在不同圈子里怎么说话
强化学习让模型有审美让他长出自己的判断和品味

我们日常用到的 ChatGPT、Claude、Gemini、DeepSeek,底子都是经过这三段培养的聪明人。

如果哪一段没做透,你能立刻感受到——

预训练不够,模型会无知,回答漏洞百出。

微调不够,模型答得很书面、不够贴你的具体场景。

强化学习不够,模型答得啰嗦、没观点、什么都想说一点又都说不深。

反过来,三段都做到位,你会觉得它既懂行又会聊天还有判断。那种顺滑的感觉不是凭空来的,是用几亿美元加几百万人的反馈加无数次实验调出来的。

写在最后

回到我今天学到的那点东西。

我以前一直以为微调和强化学习是某种再训练。学完之后才发现,它们更像是一个社会化的过程——把一个潜力巨大但有点书呆子气的聪明人,慢慢调教成一个能在不同场合得体回答你的成年人。

这或许也能解释一个常见的体验:为什么有时候你跟某个 AI 聊天,会觉得它知识渊博但情商欠缺。它的预训练做得不错,但微调和强化学习还在路上。它知道很多事,但还没学会在你这个具体的场合里,用什么样的方式回答你。

模型训练的进展,从一个角度看,是算法和算力的进步。从另一个角度看,是怎么把一个聪明人真正养得懂事。