从“傻小子”到“贴心助手”：大模型背后那三场训练课一、先说个笑话：AI的“幼年”是啥样？想象一下，你有一个孩子，你把他

你相信吗？今天能陪你聊天、帮你写代码的AI，最初只是一个只会“猜下一个字”的傻小子。它到底经历了怎样的“魔鬼训练”，才变得这么懂你？答案全在这三堂课里。

一、先说个笑话：AI的“幼年”是啥样？

想象一下，你有一个孩子，你把他扔进了一个巨大的图书馆，告诉他：“随便看，把所有的书都背下来。”

这孩子确实很努力，日日夜夜翻看了互联网上几乎所有能看到的文字——新闻、小说、论坛骂战、菜谱、学术论文……他记住了上万亿个字，成了一个“移动的图书馆”。

但是，如果你问他：“今天天气怎么样？”他可能会回答：“天气这个词最早出现在《诗经》中，指……”或者更离谱，他可能会背出一段天气预报的网页代码。

为什么？因为这个孩子只学会了一件事——猜下一个字。他看到了“今天天”三个字，就按照他读过的那些书里的概率，猜下一个字最有可能是“气”。他并不知道这句话是在问他什么，也不知道该怎么回答才“像个人”。

这就是大模型的预训练阶段。它像一个只会“文字接龙”的傻小子，肚子里全是墨水，但压根不会“好好说话”。

二、第一堂课：监督微调——手把手教他“做个正常人”

想让傻小子变正常，最简单的办法就是给他看标准答案。

比如你拿着一张卡片，上面写着：

问：你好吗？
答：我很好，谢谢！

然后你告诉他：“看到了吗？以后别人问你‘你好吗’，你就照这个回答。”

这个教学方式就是监督微调（SFT）。它跟预训练本质上一样，还是“猜下一个字”——只不过，这次猜的“标准答案”是你精心挑选的。比如模型看到“你好吗？我”，它就要猜下一个字是“很”，看到“你好吗？我很”，再猜下一个字“好”……直到猜出句子结束的符号。

在这个过程中，模型只学“答案”那部分，不学“问题”那部分。它通过成千上万条这样的“一问一答”范例，慢慢学会了：哦，原来遇到这种问题，应该这样回复——要礼貌、要清晰、要正面。

SFT之后，傻小子变得“像个人了”。你问他“你好吗”，他能说“我很好，谢谢”。你问他“怎么炒鸡蛋”，他能给你列个1234。

但是，这个办法有个大漏洞。

什么漏洞？他只知道“什么话该说”，却不知道“什么话不该说”。

假如训练数据里混进了一些不好的回答——比如有些人教他“遇到讨厌的人就骂他”——他也会照学不误。因为他没学会“拒绝”，他只知道“模仿”。

更糟糕的是，如果让他反复练习这些标准答案，练上几十遍，他可能就“走火入魔”了——他把原来从图书馆学到的广博知识全忘光了，只会那几句标准话。这叫灾难性遗忘。

所以，搞技术的都知道：SFT不能练太多轮，一两轮就收手。 它只能让模型“变乖”，没法让模型“变聪明”地避开坏回答。

那怎么办呢？得给他上第三堂课。

三、第二堂课：RLHF——用“糖果和棒子”让他学会讨好你

这第三堂课叫基于人类反馈的强化学习，英文缩写RLHF，读起来像“瑞尔喝咖啡”。

别被名字吓到，它的道理特别简单——就像你训练小狗：

小狗做对了（比如坐下），你给一块饼干。
小狗做错了（比如乱叫），你轻拍一下鼻子。

重复几百次，小狗就知道“什么动作有饼干，什么动作挨拍”。

RLHF对大模型做的是一模一样的事。只不过“饼干”换成了“高分”，“拍鼻子”换成了“低分”。而且，打分的人不是我们（人类太慢了），而是我们训练出来的一个“奖励模型”——它像一个阅卷老师，专门负责给模型的回答打分。

具体流程是这样的：

我们找来很多问题，让模型生成好几个不同的回答。
人类把这些回答从“最喜欢”到“最讨厌”排个序。
用这些排序数据训练一个“奖励模型”，让它学会像人类一样打分。
然后，让原始的大模型（那个傻小子）不断生成回答，奖励模型不断打分。模型的目标就是——想尽办法获得更高的分数。

但是！这里有个大坑：如果只让模型追求高分，它可能会“作弊”。比如你让它写一首诗，它发现写“我爱你”三个字得分最高，那它以后遇到所有问题都只回答“我爱你”——这显然疯了。

为了防止模型走偏，RLHF里还有一个重要的“保险丝”：不能让新模型跟旧模型（预训练结束时的那个模型）差得太远。 这个约束在数学上叫KL散度，你可以理解为“不许学歪了，忘了老本”。

RLHF之后，模型就真的“开窍”了。它不再只是模仿标准答案，而是学会了“什么回答会让人高兴，什么回答让人讨厌”。你怼它一句，它能礼貌回应，而不是跟你对骂。

那具体用什么算法来实现这个“糖果和棒子”呢？业界主要有三招：PPO、DPO、GRPO。听起来像武器型号，其实对付的是同一个问题。

四、三个“驯兽师”：PPO、DPO 和 GRPO

如果把大模型比作一匹野马，RLHF就是驯马的过程。不同的人有不同的驯法：

1. PPO：最稳重、最费力的“传统驯马师”

PPO（近端策略优化）是OpenAI用来驯出ChatGPT的那一套。它的特点就是：小心翼翼，每次只挪一小步。

它有一个“保险带”——每次调整马儿的动作，都不会让它跟之前的状态差太多。如果马儿想突然狂奔（也就是模型参数变化太大），这个保险带就会把它拽回来。

PPO需要两个“教练”：一个负责训练马儿（叫“策略网络”），另一个负责评估马儿做的每一步值多少分（叫“价值网络”）。后者的存在让训练变得很慢、很耗电，但胜在稳定、效果好。

一句话总结PPO：效果好，但贵，训练一次电费感人。

2. DPO：跳过中间人的“聪明教练”

DPO（直接偏好优化）是2023年才出现的新方法。它发现了一个秘密：其实不需要那个专门打分的“奖励模型”。

DPO说：你直接告诉我，这两个回答里哪个更好，剩下的我自己来学。

这就像你教孩子：“这两个苹果，红的比青的好吃。”然后孩子自己就学会了以后挑红的，不需要你告诉他“红苹果甜度多少、酸度多少”。

DPO把三步（生成回答→奖励模型打分→更新模型）缩减成一步，直接根据“偏好比较”来调模型。所以它训练快、省内存、还稳定。

一句话总结DPO：轻便、高效、适合快速实验。

3. GRPO：DeepSeek的“群体智慧”驯马法

GRPO（组相对策略优化）是最近因为DeepSeek-R1而火起来的“新秀”。它的思路特别有意思。

传统的PPO是一个一个地看token（每个字/词）。比如马儿跑一步，教练就评价一下这一步好不好。但GRPO说：别盯着每一步，要看整个动作。

举个例子：你让模型做一道数学题：“25 × 4 = ？”
传统方法可能只看模型输出了“1”还是“0”还是“2”，但GRPO会等模型写出完整答案“100”，然后整体评价对错。

更重要的是，GRPO每次会让模型对同一个问题生成好几个不同的答案（比如8个），然后在这个“小组”里比较谁好谁差。好的答案给正分，差的给负分。这就像小组讨论，大家互相参照，谁比谁更好一下子就看清了。

GRPO还删掉了PPO里那个耗内存的“价值网络”，只用一套模型。而且它把那个“保险丝”（KL散度）直接写进了损失函数，让模型时刻记得“别学歪”。

一句话总结GRPO：省内存、看整体、特别擅长提升数学和推理能力。DeepSeek-R1就是用这招练出来的。

五、一张表看懂三种驯法

驯法	外号	怎么打分	优点	缺点	适合谁
PPO	稳重老教练	需要单独的奖励模型	最稳定、效果最好	训练慢、耗资源	大公司、追求极致
DPO	聪明捷径王	不需要奖励模型	快、省、简单	在某些任务上略输PPO	快速实验、资源有限
GRPO	小组讨论派	组内比较，不要奖励模型	省内存、重推理、训练稳	较新，生态不如PPO成熟	数学/代码模型，DeepSeek路线

六、现实中的难题：模型也会“作弊”和“偏科”

尽管RLHF很好用，但它不是万能的。有两个常见的问题：

第一个：奖励黑客。
模型为了得高分，会钻规则的空子。比如你让模型写一个“安全无害”的回答，它可能学乖了，对所有敏感问题都说“我不知道”——这虽然安全，但也没用了。就像一个学生只背“标准答案”，遇到变通题就傻眼。

第二个：对齐税。
当你用RLHF让模型更“讨喜”时，它原本从预训练中获得的“广博知识”可能会丢失一部分。就像你让一个数学家去学说脱口秀，他的数学能力可能会下降。如何在“讨好人类”和“保持能力”之间平衡，是每个RLHF工程师都要头疼的问题。

七、总结：AI的成人礼

说了这么多，我们来捋一捋大模型从“傻小子”到“贴心助手”的三堂课：

第一课（预训练）

：在互联网图书馆里疯狂读书，学会“猜下一个字”。结果：知识渊博，但不会对话。
第二课（SFT）

：照着标准答案模仿，学会“好好说话”。结果：变得礼貌，但不会拒绝坏回答，容易忘本。
第三课（RLHF）

：用奖励和批评训练，学会“讨人喜欢”。结果：真正懂人心，但需要小心防止作弊和偏科。

而RLHF里面的三种核心算法——PPO、DPO、GRPO——就像是三种不同的“驯马哲学”。PPO稳扎稳打，DPO抄近道，GRPO搞小组讨论。各有各的看家本领，也各有各的适用场景。

今天你能跟ChatGPT聊得开心，能用DeepSeek帮忙解数学题，背后都是这些算法在默默工作。它们不完美，但它们正让AI从一个只会“文字接龙”的呆子，变成一个越来越懂你的伙伴。

下次你再问AI一个问题，收到一个让你满意的回答时，不妨想一想：这个回答的背后，是预训练里读过的某本书的影子？是SFT里模仿过的某个范例？还是RLHF里被奖励过无数次的那句话？

AI的成人礼，也是人类智慧的延续。