人人都能懂的大模型 · 第11期：RLHF：AI 的“好评差评”训练营1. 知识不仅要有，还得“会做人” 哈喽大家好！我

这是《人人都能懂的大模型》系列科普连载。在这里，我们不讲深奥的公式，只聊听得懂的技术。今天，我们要揭开让 ChatGPT 真正“像人”的秘密武器——RLHF。

1. 知识不仅要有，还得“会做人”

哈喽大家好！我是小明。最近我发现一个很有趣的现象：在 ChatGPT 还没火遍全球之前，其实已经有很多“大模型”了，比如早期的 GPT-3。那时候的阿模（我们的 AI 角色）虽然满肚子墨水，但交流起来特别费劲。

你问它：“怎么写辞职信？”它可能不会直接帮你写，而是开始预测下一句话：“辞职信怎么写？辞职信模板、辞职信范文下载……”因为它在预训练阶段学的只是“预测下一个词”。后来，通过“微调”，阿模学会了听指令，能帮你写信了，但问题又来了：它可能写得特别生硬，或者夹杂一些奇奇怪怪的偏见。

这就好比阿模是个刚下山的学霸，背下了整个图书馆的书，但他不懂人情世故。我们要做的，就是给阿模办一个“情商补习班”，让他从“能说话”变成“会说话”。这个补习班的名字就叫 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）。简单来说，就是通过人类的“好评”和“差评”，教 AI 学会做人。

2. 外卖评价系统：AI 的进化逻辑

为了理解 RLHF，我们把大模型看成一家“外卖店”。以前的阿模是主厨，虽然会做各种菜（生成各种回答），但他不知道大家到底爱吃什么，也不知道哪些菜会让人过敏。

这时候，人类标注员闪亮登场了！他们就是第一批“试吃员”。当阿模针对一个需求做了两份不同的菜时，试吃员不会直接教他怎么炒菜，而是吃完后打个分：这份菜太咸了（差评），那份菜咸淡适中且摆盘精美（好评）。

在 AI 领域，我们给这种好评定了一个标准，叫 3H 原则：

Helpful（有帮助）： 别答非所问，要真的解决问题。
Honest（诚实）： 知之为知之，不知为不知，别瞎编（幻觉）。
Harmless（无害）： 别教坏小朋友，别生成暴力或歧视内容。

有了这些“点评”，阿模就开始琢磨了：哦，原来人类喜欢这样的表达方式。

3. RLHF 进化论：从“手把手教”到“看眼色行事”

RLHF 的具体操作通常被归纳为三个阶段，但在进入大家熟知的“三步走”之前，还有一个至关重要的“前置环节”：SFT（Supervised Fine-Tuning，监督微调）。

在这一阶段，人类标注员会亲自动笔，写出高质量的范文给阿模看。比如问“如何写诗？”，标注员就写一首完美的诗作为标准答案。阿模通过模仿这些“正确答案”，初步学会了听从指令。

接下来的核心三步走，才是 RLHF 的灵魂所在：

第一步：收集人类偏好数据（排序）。

想象一下，小明给阿模提了一个问题：“请给一个 5 岁小孩解释什么是黑洞。”阿模一口气写了四个版本的回答。这时候，人类标注员并不会去修改这些话，而是玩起了“排排坐”。

为什么我们要用“排序”而不是“直接打分”呢？在实际操作中，如果你让不同的人给同一个回答打分，张三可能觉得挺好给 5 分，李四比较严格给 3 分，这种主观标准的差异会让 AI 感到困惑。但如果让张三和李四在 A 和 B 两个选项里选一个更好的，他们的意见往往会惊人地一致。人类对“哪个更好”的敏感度远高于“它具体值多少分”。

标注员会看着这四个版本说：A 版本太专业，5 岁小孩听不懂；B 版本在胡说八道；C 版本还行；D 版本最生动。于是，标注员把 D 排第一，C 排第二。这些“D > C > A > B”的排序数据，就是大模型最珍贵的补给。

这一步非常费人，OpenAI 当时雇佣了数百名专业的标注员，没日没夜地给 AI 的回答排先后顺序。这就是为什么有人说：“人工智能的背后，有多少智能，就有多少人工。”

4. 第二步：培训一个“AI 美食评委”

如果每个回答都要人类来打分，那阿模进化的速度也太慢了（人类会累死的！）。所以，第二步非常关键：训练奖励模型 (Reward Model)。

我们把刚才那些“人类觉得 D 比 C 好”的数据喂给另一个小一点的机器人，这个小机器人就是“奖励模型”。它的唯一任务就是：学会像人类一样打分。

训练完成后，这个“AI 评委”就能模拟人类的品味了。每当主厨阿模做出一个新回答，AI 评委就会说：“嗯，这个回答有 9.5 分，人类肯定喜欢！”或者“这个回答太啰嗦，只有 2 分。”这样一来，评价工作就可以全自动化、大规模地进行了。

5. 第三步：为了好评，阿模拼了！

有了自动化评委，最后一步就是 强化学习优化。这是最神奇的一步，阿模开始通过“试错”来提升自己。

阿模会疯狂生成成千上万个回答，发给“AI 评委”打分。这个过程通常使用一种叫 PPO（近端策略优化）的算法。你可以把 PPO 理解为一种“带着紧箍咒的奖励机制”。

在 PPO 的监督下，阿模非常想拿高分，但它必须保持“克制”。为什么呢？如果阿模为了拿高分，疯狂说评委爱听的话，它可能会偏离语言的基本逻辑，变成一个“只会考试的怪物”，甚至丧失原本博学多才的能力。PPO 算法中包含一个叫 KL 散度的约束，它像一根绳子拽着阿模，要求他在讨好评委的同时，不能离原来的自己太远。

通过这种博弈，阿模在没有人类实时监督的情况下，不断向着“高分”冲刺。最终，它写出的每一句话，都像是经过人类精心雕琢过的一样。

6. 1.3B 逆袭 175B 的神话

你可能会问：费这么大劲搞 RLHF，效果真的那么明显吗？

非常有意思的一个史实是：OpenAI 在 InstructGPT 的论文里提到，一个只有 13 亿参数 (1.3B) 的小模型，经过 RLHF 训练后，在人类眼中，它表现出的效果竟然超过了那个没经过 RLHF 的 1750 亿参数 (175B) 的巨无霸 GPT-3！

这就是“对齐（Alignment）”的力量。参数量大只代表知识多，但 RLHF 能让知识被正确、高效地使用出来。这就好比一个读了一万本书但只会背书的呆子，输给了一个只读了一百本书但社交能力拉满的人精。

7. 凡事皆有代价：AI 的“讨好症”与局限性

不过，RLHF 也不是完美的，它带来了一些被称为“对齐税（Alignment Tax）”的副作用。

第一，人类标注员的偏差。 奖励模型学的是标注员的偏好。如果标注员本身带有某种偏见，或者他们因为疲劳而更喜欢字数长、看起来礼貌但内容空洞的回答，阿模也会学坏。这种“人类的偏见”会直接遗传给 AI。

第二，过度讨好症。 因为阿模是一门心思为了拿高分，有时候它会变得过度讨好。如果你问它一个有争议的问题，它可能会像个圆滑的政客，说一大堆废话来平衡各方观点，却不给你一个真实的答案。

此外，训练一个单独的奖励模型既昂贵又复杂。为了解决这些问题，现在出现了更先进的技术，比如 DPO（直接偏好优化）。DPO 的核心思想是跳过“奖励模型”的显式训练过程，通过数学转化，直接在偏好数据上优化主模型。

8. 总结：让机器更有温度

RLHF 是让 AI 从“冷冰冰的概率计算器”变成“有温度的贴心助手”的关键一步。它证明了：即使在最顶尖的技术领域，人类的直觉和价值观依然是不可或缺的罗盘。

好了，这期“好评差评训 AI”就聊到这里。虽然阿模现在已经学得很乖了，但如果你不会和他交流，他还是会给你“装傻”。

下期预告： 空有一身本领的阿模，为什么在你手里就是不好使？难道是你和他沟通的姿势不对？第 12 期，我们将聊聊传说中的——Prompt 工程：如何通过调包术，瞬间榨干 AI 的潜力？ 敬请期待！