CHATGPT RLHE学习笔记 | 豆包MarsCode AI刷题

131 阅读2分钟

ChatGPT RLHF学习笔记

RLHF(Reinforcement Learning from Human Feedback)是ChatGPT采用的一种核心训练方法,它通过人类反馈来指导大语言模型的训练。以下是对RLHF主要内容的总结:

  1. RLHF的背景与动机

传统的语言模型训练主要依赖于监督学习,但在实际应用中存在以下问题:

  • 难以对模型输出进行自动评估
  • 缺乏有效的反馈机制
  • 模型可能会产生不符合人类期望的输出

RLHF正是为了解决这些问题而提出的方法。

  1. RLHF的四个关键步骤

Step 0: 预训练语言模型

  • 使用海量互联网文本进行预训练
  • 此阶段模型仅能进行简单的文字接龙
  • 无法真正理解和执行用户指令

Step 1: 监督微调(SFT)

  • 构建高质量的问答数据集
  • 通过人工标注获得标准答案
  • 对预训练模型进行微调
  • 让模型学会基本的问答能力

Step 2: 训练Reward模型

  • 收集模型对同一问题的多个回答
  • 人工对这些回答进行相对排序
  • 训练一个可以评估回答质量的reward模型
  • 该模型可以模拟人类对答案的评价

Step 3: 强化学习优化

  • 使用PPO(近端策略优化)算法
  • 结合SFT模型和Reward模型进行训练
  • 通过reward反馈不断优化模型输出
  • 同时保持输出的自然性和连贯性

3. PPO算法的核心思想

PPO算法主要解决两个问题:

  1. 确保新旧策略不会差异过大
  • 通过KL散度约束两个策略的距离
  • 避免模型行为发生剧烈变化
  1. 保证训练的稳定性
  • 使用clip机制限制更新步长
  • 防止梯度爆炸或消失

4. RLHF的本质思考

RLHF的核心是构建了一个reward模型来模拟现实世界对语言输出的评价。这个reward模型:

  • 充当了模型训练的"导师"
  • 提供持续的优化方向
  • 帮助模型逐步接近人类期望的行为

5. RLHF的优势

相比传统方法,RLHF具有以下优点:

  • 可以持续优化模型表现
  • 更好地对齐人类偏好
  • 产生更自然、更有用的回答
  • 降低了不良输出的风险

6. 启示与思考

RLHF的成功告诉我们:

  • 人类反馈对于AI系统至关重要
  • 强化学习可以有效地改进语言模型
  • 好的评价机制是模型进步的关键

这种方法为未来的AI训练提供了新的思路,但同时也带来了一些值得思考的问题,比如是否可以用其他方式替代强化学习来利用reward模型的反馈等。