从 In-context Learning 到 RLHF:大语言模型的范式跃迁
—— CS224n Lecture 10 深度笔记
自然语言处理(NLP)在过去几年经历了一场无声的革命。我们不再为每个任务微调(Fine-tune)一个专用模型,而是转向了通用大模型的训练。
这一转变并非一蹴而就。从 GPT-2 的零样本尝试,到 GPT-3 的惊艳涌现,再到 InstructGPT 引入的强化学习,这是一条从“预测下一个词”走向“理解人类意图”的进化之路。
一、 涌现:从 Zero-shot 到 In-context Learning
在 BERT 时代,范式是“预训练 + 下游任务微调”。但 GPT 系列证明了,当模型足够大、语料足够多时,任务处理能力会自然涌现。
1. GPT-2 与 零样本学习 (Zero-shot)
GPT-2 展示了只要你有足够的提示词(Prompt)创造力,模型就能完成未见过的任务。
- 摘要任务:研究人员发现,只需在文章末尾加上
TL;DR:(Too Long; Didn't Read),模型就会自动进入“总结模式”。 - 问答与指代消歧:通过构建特定的序列预测问题(如 Winograd Schema Challenge),模型利用概率分布 就能在没有梯度更新的情况下做出选择。
2. GPT-3 与 上下文学习 (In-context Learning)
GPT-3 进一步提出了 Few-shot Learning,或者更准确地说是 In-context Learning。
- 机制:在输入中前置几个示例(Examples),例如
gaot => goat,模型就能理解“拼写纠正”的任务意图。 - 本质:关键在于 No Gradient Updates。模型参数 没有改变,模型是在推理阶段通过 Attention 机制,利用上下文中的示例来定位任务分布。
二、 规训:指令微调 (Instruction Finetuning)
虽然 GPT-3 很强,但它本质上还是一个“文本补全机”,而非“助手”。为了让模型听懂指令,我们进入了 Instruction Finetuning 阶段。
- 方法:将大量 NLP 任务(翻译、推理、问答)转化为指令格式,对预训练模型(如 T5)进行全量微调,得到 Flan-T5。
- 效果:实验表明,模型越大,指令微调带来的性能增益()越显著(Scaling Law)。
局限性 (The Limitations)
然而,传统的监督微调(SFT)存在瓶颈:
- 数据昂贵:收集高质量的“标准答案”成本极高。
- 缺乏细微差别:对于开放式任务(如“写一个关于狗和蚱蜢的故事”),没有唯一的正确答案。
- 惩罚机制僵化:在 Cross-Entropy Loss 下,将“冒险片”预测为“奇幻片”(接近正确)和预测为“音乐剧”(完全错误)受到的惩罚是一样的。
三、 对齐:基于人类反馈的强化学习 (RLHF)
为了解决 SFT 的局限,我们需要一种能理解“好坏优劣”而非单纯“对错”的机制。这正是 RLHF (Reinforcement Learning from Human Feedback) 的用武之地。
1. 为什么是 RL?
虽然 RL 在游戏领域(AlphaGo)早已大放异彩,但在语言模型上的应用是较新的突破(PPO 算法的出现解决了稳定性问题)。RL 允许我们要针对不可导的奖励函数(人类偏好)进行优化。
2. 核心组件:奖励模型 (Reward Model)
既然人类打分噪声太大,我们采用了 Pairwise Comparison(成对比较) 。
-
让模型生成两个回答 和 ,人类只需判断 。
-
通过 Bradley-Terry 模型 训练奖励模型 ,使其满足:
这一步将人类模糊的价值观固化为了一个可计算的神经网络。
3. 终极循环:PPO 与 KL 散度惩罚
这是 ChatGPT 训练流程的最后一块拼图。我们需要训练一个新的策略模型 ,优化目标如下:
-
:驱使模型尽可能获得高分(讨好人类)。
-
KL Penalty: 是一道紧箍咒。它强迫新模型的分布 不能偏离原始预训练模型 太远。
- 如果没有它:模型会利用 Reward Model 的漏洞进行“刷分”(Reward Hacking),输出人类无法理解的乱码。
- 有了它:模型在保持语言流利度(不忘初心)的前提下,尽可能符合人类偏好。
四、 未来:Constitutional AI
RLHF 虽然强大,但依赖大量人类标注(Data Expensive)。未来的方向是 RLAIF (RL from AI Feedback) ,即“宪法 AI”。
通过给定一套原则(Constitution),让 AI 自己对自己生成的回答进行 Critique(批判) 和 Revision(修正) ,从而实现自我迭代。如果说 RLHF 是“依人法治”,那么 RLAIF 就是“依宪法治”。
结语
从 GPT-2 的 TL;DR 到 GPT-4 的 RLHF,本质上是我们不仅希望 AI 懂得多(Pre-training),更希望 AI 懂我们(Alignment)。这一过程,正是从“统计概率”向“类人智能”跨越的关键一步。