从 In-context Learning 到 RLHF:大语言模型的范式跃迁

62 阅读2分钟

从 In-context Learning 到 RLHF:大语言模型的范式跃迁

—— CS224n Lecture 10 深度笔记

自然语言处理(NLP)在过去几年经历了一场无声的革命。我们不再为每个任务微调(Fine-tune)一个专用模型,而是转向了通用大模型的训练。

这一转变并非一蹴而就。从 GPT-2 的零样本尝试,到 GPT-3 的惊艳涌现,再到 InstructGPT 引入的强化学习,这是一条从“预测下一个词”走向“理解人类意图”的进化之路。

一、 涌现:从 Zero-shot 到 In-context Learning

在 BERT 时代,范式是“预训练 + 下游任务微调”。但 GPT 系列证明了,当模型足够大、语料足够多时,任务处理能力会自然涌现

1. GPT-2 与 零样本学习 (Zero-shot)

GPT-2 展示了只要你有足够的提示词(Prompt)创造力,模型就能完成未见过的任务。

  • 摘要任务:研究人员发现,只需在文章末尾加上 TL;DR:(Too Long; Didn't Read),模型就会自动进入“总结模式”。
  • 问答与指代消歧:通过构建特定的序列预测问题(如 Winograd Schema Challenge),模型利用概率分布 P(context)P(\text{context}) 就能在没有梯度更新的情况下做出选择。

2. GPT-3 与 上下文学习 (In-context Learning)

GPT-3 进一步提出了 Few-shot Learning,或者更准确地说是 In-context Learning

  • 机制:在输入中前置几个示例(Examples),例如 gaot => goat,模型就能理解“拼写纠正”的任务意图。
  • 本质:关键在于 No Gradient Updates。模型参数 θ\theta 没有改变,模型是在推理阶段通过 Attention 机制,利用上下文中的示例来定位任务分布。

二、 规训:指令微调 (Instruction Finetuning)

虽然 GPT-3 很强,但它本质上还是一个“文本补全机”,而非“助手”。为了让模型听懂指令,我们进入了 Instruction Finetuning 阶段。

  • 方法:将大量 NLP 任务(翻译、推理、问答)转化为指令格式,对预训练模型(如 T5)进行全量微调,得到 Flan-T5。
  • 效果:实验表明,模型越大,指令微调带来的性能增益(Δ\Delta)越显著(Scaling Law)。

局限性 (The Limitations)

然而,传统的监督微调(SFT)存在瓶颈:

  1. 数据昂贵:收集高质量的“标准答案”成本极高。
  2. 缺乏细微差别:对于开放式任务(如“写一个关于狗和蚱蜢的故事”),没有唯一的正确答案。
  3. 惩罚机制僵化:在 Cross-Entropy Loss 下,将“冒险片”预测为“奇幻片”(接近正确)和预测为“音乐剧”(完全错误)受到的惩罚是一样的。

三、 对齐:基于人类反馈的强化学习 (RLHF)

为了解决 SFT 的局限,我们需要一种能理解“好坏优劣”而非单纯“对错”的机制。这正是 RLHF (Reinforcement Learning from Human Feedback) 的用武之地。

1. 为什么是 RL?

虽然 RL 在游戏领域(AlphaGo)早已大放异彩,但在语言模型上的应用是较新的突破(PPO 算法的出现解决了稳定性问题)。RL 允许我们要针对不可导的奖励函数(人类偏好)进行优化。

2. 核心组件:奖励模型 (Reward Model)

既然人类打分噪声太大,我们采用了 Pairwise Comparison(成对比较)

  • 让模型生成两个回答 sws^wsls^l,人类只需判断 sw>sls^w > s^l

  • 通过 Bradley-Terry 模型 训练奖励模型 RMϕRM_\phi,使其满足:

    JRM(ϕ)=E(sw,sl)D[logσ(RMϕ(sw)RMϕ(sl))]J_{RM}(\phi) = -\mathbb{E}_{(s^w, s^l) \sim D} [\log \sigma (RM_\phi(s^w) - RM_\phi(s^l))]

    这一步将人类模糊的价值观固化为了一个可计算的神经网络。

3. 终极循环:PPO 与 KL 散度惩罚

这是 ChatGPT 训练流程的最后一块拼图。我们需要训练一个新的策略模型 pθRLp_\theta^{RL},优化目标如下:

R(s)=RMϕ(s)βlog(pθRL(s)pPT(s))R(s) = RM_\phi(s) - \beta \log \left( \frac{p_\theta^{RL}(s)}{p^{PT}(s)} \right)

  • RMϕ(s)RM_\phi(s) :驱使模型尽可能获得高分(讨好人类)。

  • KL Penaltyβlog()-\beta \log (\dots) 是一道紧箍咒。它强迫新模型的分布 pRLp^{RL} 不能偏离原始预训练模型 pPTp^{PT} 太远。

    • 如果没有它:模型会利用 Reward Model 的漏洞进行“刷分”(Reward Hacking),输出人类无法理解的乱码。
    • 有了它:模型在保持语言流利度(不忘初心)的前提下,尽可能符合人类偏好。

四、 未来:Constitutional AI

RLHF 虽然强大,但依赖大量人类标注(Data Expensive)。未来的方向是 RLAIF (RL from AI Feedback) ,即“宪法 AI”。

通过给定一套原则(Constitution),让 AI 自己对自己生成的回答进行 Critique(批判)Revision(修正) ,从而实现自我迭代。如果说 RLHF 是“依人法治”,那么 RLAIF 就是“依宪法治”。

结语

从 GPT-2 的 TL;DR 到 GPT-4 的 RLHF,本质上是我们不仅希望 AI 懂得多(Pre-training),更希望 AI 懂我们(Alignment)。这一过程,正是从“统计概率”向“类人智能”跨越的关键一步。