人人都能懂的大模型 · 第11期:RLHF:AI 的“好评差评”训练营

15 阅读8分钟

这是《人人都能懂的大模型》系列科普连载。在这里,我们不讲深奥的公式,只聊听得懂的技术。今天,我们要揭开让 ChatGPT 真正“像人”的秘密武器——RLHF。

1. 知识不仅要有,还得“会做人”

哈喽大家好!我是小明。最近我发现一个很有趣的现象:在 ChatGPT 还没火遍全球之前,其实已经有很多“大模型”了,比如早期的 GPT-3。那时候的阿模(我们的 AI 角色)虽然满肚子墨水,但交流起来特别费劲。

你问它:“怎么写辞职信?”它可能不会直接帮你写,而是开始预测下一句话:“辞职信怎么写?辞职信模板、辞职信范文下载……”因为它在预训练阶段学的只是“预测下一个词”。后来,通过“微调”,阿模学会了听指令,能帮你写信了,但问题又来了:它可能写得特别生硬,或者夹杂一些奇奇怪怪的偏见。

配图

这就好比阿模是个刚下山的学霸,背下了整个图书馆的书,但他不懂人情世故。我们要做的,就是给阿模办一个“情商补习班”,让他从“能说话”变成“会说话”。这个补习班的名字就叫 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)。简单来说,就是通过人类的“好评”和“差评”,教 AI 学会做人。

2. 外卖评价系统:AI 的进化逻辑

为了理解 RLHF,我们把大模型看成一家“外卖店”。以前的阿模是主厨,虽然会做各种菜(生成各种回答),但他不知道大家到底爱吃什么,也不知道哪些菜会让人过敏。

这时候,人类标注员闪亮登场了!他们就是第一批“试吃员”。当阿模针对一个需求做了两份不同的菜时,试吃员不会直接教他怎么炒菜,而是吃完后打个分:这份菜太咸了(差评),那份菜咸淡适中且摆盘精美(好评)。

配图

在 AI 领域,我们给这种好评定了一个标准,叫 3H 原则

  • Helpful(有帮助): 别答非所问,要真的解决问题。
  • Honest(诚实): 知之为知之,不知为不知,别瞎编(幻觉)。
  • Harmless(无害): 别教坏小朋友,别生成暴力或歧视内容。

有了这些“点评”,阿模就开始琢磨了:哦,原来人类喜欢这样的表达方式。

3. RLHF 进化论:从“手把手教”到“看眼色行事”

RLHF 的具体操作通常被归纳为三个阶段,但在进入大家熟知的“三步走”之前,还有一个至关重要的“前置环节”:SFT(Supervised Fine-Tuning,监督微调)

在这一阶段,人类标注员会亲自动笔,写出高质量的范文给阿模看。比如问“如何写诗?”,标注员就写一首完美的诗作为标准答案。阿模通过模仿这些“正确答案”,初步学会了听从指令。

接下来的核心三步走,才是 RLHF 的灵魂所在:

第一步:收集人类偏好数据(排序)。

想象一下,小明给阿模提了一个问题:“请给一个 5 岁小孩解释什么是黑洞。”阿模一口气写了四个版本的回答。这时候,人类标注员并不会去修改这些话,而是玩起了“排排坐”。

为什么我们要用“排序”而不是“直接打分”呢? 在实际操作中,如果你让不同的人给同一个回答打分,张三可能觉得挺好给 5 分,李四比较严格给 3 分,这种主观标准的差异会让 AI 感到困惑。但如果让张三和李四在 A 和 B 两个选项里选一个更好的,他们的意见往往会惊人地一致。人类对“哪个更好”的敏感度远高于“它具体值多少分”。

配图

标注员会看着这四个版本说:A 版本太专业,5 岁小孩听不懂;B 版本在胡说八道;C 版本还行;D 版本最生动。于是,标注员把 D 排第一,C 排第二。这些“D > C > A > B”的排序数据,就是大模型最珍贵的补给。

配图

这一步非常费人,OpenAI 当时雇佣了数百名专业的标注员,没日没夜地给 AI 的回答排先后顺序。这就是为什么有人说:“人工智能的背后,有多少智能,就有多少人工。”

4. 第二步:培训一个“AI 美食评委”

如果每个回答都要人类来打分,那阿模进化的速度也太慢了(人类会累死的!)。所以,第二步非常关键:训练奖励模型 (Reward Model)

我们把刚才那些“人类觉得 D 比 C 好”的数据喂给另一个小一点的机器人,这个小机器人就是“奖励模型”。它的唯一任务就是:学会像人类一样打分。

配图

训练完成后,这个“AI 评委”就能模拟人类的品味了。每当主厨阿模做出一个新回答,AI 评委就会说:“嗯,这个回答有 9.5 分,人类肯定喜欢!”或者“这个回答太啰嗦,只有 2 分。”这样一来,评价工作就可以全自动化、大规模地进行了。

5. 第三步:为了好评,阿模拼了!

有了自动化评委,最后一步就是 强化学习优化。这是最神奇的一步,阿模开始通过“试错”来提升自己。

阿模会疯狂生成成千上万个回答,发给“AI 评委”打分。这个过程通常使用一种叫 PPO(近端策略优化)的算法。你可以把 PPO 理解为一种“带着紧箍咒的奖励机制”。

在 PPO 的监督下,阿模非常想拿高分,但它必须保持“克制”。为什么呢?如果阿模为了拿高分,疯狂说评委爱听的话,它可能会偏离语言的基本逻辑,变成一个“只会考试的怪物”,甚至丧失原本博学多才的能力。PPO 算法中包含一个叫 KL 散度的约束,它像一根绳子拽着阿模,要求他在讨好评委的同时,不能离原来的自己太远。

配图

通过这种博弈,阿模在没有人类实时监督的情况下,不断向着“高分”冲刺。最终,它写出的每一句话,都像是经过人类精心雕琢过的一样。

6. 1.3B 逆袭 175B 的神话

你可能会问:费这么大劲搞 RLHF,效果真的那么明显吗?

非常有意思的一个史实是:OpenAI 在 InstructGPT 的论文里提到,一个只有 13 亿参数 (1.3B) 的小模型,经过 RLHF 训练后,在人类眼中,它表现出的效果竟然超过了那个没经过 RLHF 的 1750 亿参数 (175B) 的巨无霸 GPT-3!

配图

这就是“对齐(Alignment)”的力量。参数量大只代表知识多,但 RLHF 能让知识被正确、高效地使用出来。这就好比一个读了一万本书但只会背书的呆子,输给了一个只读了一百本书但社交能力拉满的人精。

7. 凡事皆有代价:AI 的“讨好症”与局限性

不过,RLHF 也不是完美的,它带来了一些被称为“对齐税(Alignment Tax)”的副作用。

第一,人类标注员的偏差。 奖励模型学的是标注员的偏好。如果标注员本身带有某种偏见,或者他们因为疲劳而更喜欢字数长、看起来礼貌但内容空洞的回答,阿模也会学坏。这种“人类的偏见”会直接遗传给 AI。

第二,过度讨好症。 因为阿模是一门心思为了拿高分,有时候它会变得过度讨好。如果你问它一个有争议的问题,它可能会像个圆滑的政客,说一大堆废话来平衡各方观点,却不给你一个真实的答案。

配图

此外,训练一个单独的奖励模型既昂贵又复杂。为了解决这些问题,现在出现了更先进的技术,比如 DPO(直接偏好优化)。DPO 的核心思想是跳过“奖励模型”的显式训练过程,通过数学转化,直接在偏好数据上优化主模型。

配图

8. 总结:让机器更有温度

RLHF 是让 AI 从“冷冰冰的概率计算器”变成“有温度的贴心助手”的关键一步。它证明了:即使在最顶尖的技术领域,人类的直觉和价值观依然是不可或缺的罗盘。

配图

好了,这期“好评差评训 AI”就聊到这里。虽然阿模现在已经学得很乖了,但如果你不会和他交流,他还是会给你“装傻”。

下期预告: 空有一身本领的阿模,为什么在你手里就是不好使?难道是你和他沟通的姿势不对? 第 12 期,我们将聊聊传说中的——Prompt 工程:如何通过调包术,瞬间榨干 AI 的潜力? 敬请期待!