你相信吗?今天能陪你聊天、帮你写代码的AI,最初只是一个只会“猜下一个字”的傻小子。它到底经历了怎样的“魔鬼训练”,才变得这么懂你?答案全在这三堂课里。
一、先说个笑话:AI的“幼年”是啥样?
想象一下,你有一个孩子,你把他扔进了一个巨大的图书馆,告诉他:“随便看,把所有的书都背下来。”
这孩子确实很努力,日日夜夜翻看了互联网上几乎所有能看到的文字——新闻、小说、论坛骂战、菜谱、学术论文……他记住了上万亿个字,成了一个“移动的图书馆”。
但是,如果你问他:“今天天气怎么样?”他可能会回答:“天气这个词最早出现在《诗经》中,指……”或者更离谱,他可能会背出一段天气预报的网页代码。
为什么?因为这个孩子只学会了一件事——猜下一个字。他看到了“今天天”三个字,就按照他读过的那些书里的概率,猜下一个字最有可能是“气”。他并不知道这句话是在问他什么,也不知道该怎么回答才“像个人”。
这就是大模型的预训练阶段。它像一个只会“文字接龙”的傻小子,肚子里全是墨水,但压根不会“好好说话”。
二、第一堂课:监督微调——手把手教他“做个正常人”
想让傻小子变正常,最简单的办法就是给他看标准答案。
比如你拿着一张卡片,上面写着:
问:你好吗?
答:我很好,谢谢!
然后你告诉他:“看到了吗?以后别人问你‘你好吗’,你就照这个回答。”
这个教学方式就是监督微调(SFT)。它跟预训练本质上一样,还是“猜下一个字”——只不过,这次猜的“标准答案”是你精心挑选的。比如模型看到“你好吗?我”,它就要猜下一个字是“很”,看到“你好吗?我很”,再猜下一个字“好”……直到猜出句子结束的符号。
在这个过程中,模型只学“答案”那部分,不学“问题”那部分。它通过成千上万条这样的“一问一答”范例,慢慢学会了:哦,原来遇到这种问题,应该这样回复——要礼貌、要清晰、要正面。
SFT之后,傻小子变得“像个人了”。你问他“你好吗”,他能说“我很好,谢谢”。你问他“怎么炒鸡蛋”,他能给你列个1234。
但是,这个办法有个大漏洞。
什么漏洞?他只知道“什么话该说”,却不知道“什么话不该说”。
假如训练数据里混进了一些不好的回答——比如有些人教他“遇到讨厌的人就骂他”——他也会照学不误。因为他没学会“拒绝”,他只知道“模仿”。
更糟糕的是,如果让他反复练习这些标准答案,练上几十遍,他可能就“走火入魔”了——他把原来从图书馆学到的广博知识全忘光了,只会那几句标准话。这叫灾难性遗忘。
所以,搞技术的都知道:SFT不能练太多轮,一两轮就收手。 它只能让模型“变乖”,没法让模型“变聪明”地避开坏回答。
那怎么办呢?得给他上第三堂课。
三、第二堂课:RLHF——用“糖果和棒子”让他学会讨好你
这第三堂课叫基于人类反馈的强化学习,英文缩写RLHF,读起来像“瑞尔喝咖啡”。
别被名字吓到,它的道理特别简单——就像你训练小狗:
-
小狗做对了(比如坐下),你给一块饼干。
-
小狗做错了(比如乱叫),你轻拍一下鼻子。
重复几百次,小狗就知道“什么动作有饼干,什么动作挨拍”。
RLHF对大模型做的是一模一样的事。只不过“饼干”换成了“高分”,“拍鼻子”换成了“低分”。而且,打分的人不是我们(人类太慢了),而是我们训练出来的一个“奖励模型”——它像一个阅卷老师,专门负责给模型的回答打分。
具体流程是这样的:
-
我们找来很多问题,让模型生成好几个不同的回答。
-
人类把这些回答从“最喜欢”到“最讨厌”排个序。
-
用这些排序数据训练一个“奖励模型”,让它学会像人类一样打分。
-
然后,让原始的大模型(那个傻小子)不断生成回答,奖励模型不断打分。模型的目标就是——想尽办法获得更高的分数。
但是!这里有个大坑:如果只让模型追求高分,它可能会“作弊”。比如你让它写一首诗,它发现写“我爱你”三个字得分最高,那它以后遇到所有问题都只回答“我爱你”——这显然疯了。
为了防止模型走偏,RLHF里还有一个重要的“保险丝”:不能让新模型跟旧模型(预训练结束时的那个模型)差得太远。 这个约束在数学上叫KL散度,你可以理解为“不许学歪了,忘了老本”。
RLHF之后,模型就真的“开窍”了。它不再只是模仿标准答案,而是学会了“什么回答会让人高兴,什么回答让人讨厌”。你怼它一句,它能礼貌回应,而不是跟你对骂。
那具体用什么算法来实现这个“糖果和棒子”呢?业界主要有三招:PPO、DPO、GRPO。听起来像武器型号,其实对付的是同一个问题。
四、三个“驯兽师”:PPO、DPO 和 GRPO
如果把大模型比作一匹野马,RLHF就是驯马的过程。不同的人有不同的驯法:
1. PPO:最稳重、最费力的“传统驯马师”
PPO(近端策略优化)是OpenAI用来驯出ChatGPT的那一套。它的特点就是:小心翼翼,每次只挪一小步。
它有一个“保险带”——每次调整马儿的动作,都不会让它跟之前的状态差太多。如果马儿想突然狂奔(也就是模型参数变化太大),这个保险带就会把它拽回来。
PPO需要两个“教练”:一个负责训练马儿(叫“策略网络”),另一个负责评估马儿做的每一步值多少分(叫“价值网络”)。后者的存在让训练变得很慢、很耗电,但胜在稳定、效果好。
一句话总结PPO:效果好,但贵,训练一次电费感人。
2. DPO:跳过中间人的“聪明教练”
DPO(直接偏好优化)是2023年才出现的新方法。它发现了一个秘密:其实不需要那个专门打分的“奖励模型”。
DPO说:你直接告诉我,这两个回答里哪个更好,剩下的我自己来学。
这就像你教孩子:“这两个苹果,红的比青的好吃。”然后孩子自己就学会了以后挑红的,不需要你告诉他“红苹果甜度多少、酸度多少”。
DPO把三步(生成回答→奖励模型打分→更新模型)缩减成一步,直接根据“偏好比较”来调模型。所以它训练快、省内存、还稳定。
一句话总结DPO:轻便、高效、适合快速实验。
3. GRPO:DeepSeek的“群体智慧”驯马法
GRPO(组相对策略优化)是最近因为DeepSeek-R1而火起来的“新秀”。它的思路特别有意思。
传统的PPO是一个一个地看token(每个字/词)。比如马儿跑一步,教练就评价一下这一步好不好。但GRPO说:别盯着每一步,要看整个动作。
举个例子:你让模型做一道数学题:“25 × 4 = ?”
传统方法可能只看模型输出了“1”还是“0”还是“2”,但GRPO会等模型写出完整答案“100”,然后整体评价对错。
更重要的是,GRPO每次会让模型对同一个问题生成好几个不同的答案(比如8个),然后在这个“小组”里比较谁好谁差。好的答案给正分,差的给负分。这就像小组讨论,大家互相参照,谁比谁更好一下子就看清了。
GRPO还删掉了PPO里那个耗内存的“价值网络”,只用一套模型。而且它把那个“保险丝”(KL散度)直接写进了损失函数,让模型时刻记得“别学歪”。
一句话总结GRPO:省内存、看整体、特别擅长提升数学和推理能力。DeepSeek-R1就是用这招练出来的。
五、一张表看懂三种驯法
驯法 | 外号 | 怎么打分 | 优点 | 缺点 | 适合谁 |
PPO | 稳重老教练 | 需要单独的奖励模型 | 最稳定、效果最好 | 训练慢、耗资源 | 大公司、追求极致 |
DPO | 聪明捷径王 | 不需要奖励模型 | 快、省、简单 | 在某些任务上略输PPO | 快速实验、资源有限 |
GRPO | 小组讨论派 | 组内比较,不要奖励模型 | 省内存、重推理、训练稳 | 较新,生态不如PPO成熟 | 数学/代码模型,DeepSeek路线 |
六、现实中的难题:模型也会“作弊”和“偏科”
尽管RLHF很好用,但它不是万能的。有两个常见的问题:
第一个:奖励黑客。
模型为了得高分,会钻规则的空子。比如你让模型写一个“安全无害”的回答,它可能学乖了,对所有敏感问题都说“我不知道”——这虽然安全,但也没用了。就像一个学生只背“标准答案”,遇到变通题就傻眼。
第二个:对齐税。
当你用RLHF让模型更“讨喜”时,它原本从预训练中获得的“广博知识”可能会丢失一部分。就像你让一个数学家去学说脱口秀,他的数学能力可能会下降。如何在“讨好人类”和“保持能力”之间平衡,是每个RLHF工程师都要头疼的问题。
七、总结:AI的成人礼
说了这么多,我们来捋一捋大模型从“傻小子”到“贴心助手”的三堂课:
-
第一课(预训练)
:在互联网图书馆里疯狂读书,学会“猜下一个字”。结果:知识渊博,但不会对话。
-
第二课(SFT)
:照着标准答案模仿,学会“好好说话”。结果:变得礼貌,但不会拒绝坏回答,容易忘本。
-
第三课(RLHF)
:用奖励和批评训练,学会“讨人喜欢”。结果:真正懂人心,但需要小心防止作弊和偏科。
而RLHF里面的三种核心算法——PPO、DPO、GRPO——就像是三种不同的“驯马哲学”。PPO稳扎稳打,DPO抄近道,GRPO搞小组讨论。各有各的看家本领,也各有各的适用场景。
今天你能跟ChatGPT聊得开心,能用DeepSeek帮忙解数学题,背后都是这些算法在默默工作。它们不完美,但它们正让AI从一个只会“文字接龙”的呆子,变成一个越来越懂你的伙伴。
下次你再问AI一个问题,收到一个让你满意的回答时,不妨想一想:这个回答的背后,是预训练里读过的某本书的影子?是SFT里模仿过的某个范例?还是RLHF里被奖励过无数次的那句话?
AI的成人礼,也是人类智慧的延续。