CHATGPT RLHE学习笔记 | 豆包MarsCode AI刷题

2024-11-22 131 阅读2分钟

ChatGPT RLHF学习笔记

RLHF(Reinforcement Learning from Human Feedback)是ChatGPT采用的一种核心训练方法,它通过人类反馈来指导大语言模型的训练。以下是对RLHF主要内容的总结:

RLHF的背景与动机

传统的语言模型训练主要依赖于监督学习,但在实际应用中存在以下问题:

难以对模型输出进行自动评估
缺乏有效的反馈机制
模型可能会产生不符合人类期望的输出

RLHF正是为了解决这些问题而提出的方法。

RLHF的四个关键步骤

Step 0: 预训练语言模型

使用海量互联网文本进行预训练
此阶段模型仅能进行简单的文字接龙
无法真正理解和执行用户指令

Step 1: 监督微调(SFT)

构建高质量的问答数据集
通过人工标注获得标准答案
对预训练模型进行微调
让模型学会基本的问答能力

Step 2: 训练Reward模型

收集模型对同一问题的多个回答
人工对这些回答进行相对排序
训练一个可以评估回答质量的reward模型
该模型可以模拟人类对答案的评价

Step 3: 强化学习优化

使用PPO(近端策略优化)算法
结合SFT模型和Reward模型进行训练
通过reward反馈不断优化模型输出
同时保持输出的自然性和连贯性

3. PPO算法的核心思想

PPO算法主要解决两个问题:

确保新旧策略不会差异过大

通过KL散度约束两个策略的距离
避免模型行为发生剧烈变化

保证训练的稳定性

使用clip机制限制更新步长
防止梯度爆炸或消失

4. RLHF的本质思考

RLHF的核心是构建了一个reward模型来模拟现实世界对语言输出的评价。这个reward模型:

充当了模型训练的"导师"
提供持续的优化方向
帮助模型逐步接近人类期望的行为

5. RLHF的优势

相比传统方法,RLHF具有以下优点:

可以持续优化模型表现
更好地对齐人类偏好
产生更自然、更有用的回答
降低了不良输出的风险

6. 启示与思考

RLHF的成功告诉我们:

人类反馈对于AI系统至关重要
强化学习可以有效地改进语言模型
好的评价机制是模型进步的关键

这种方法为未来的AI训练提供了新的思路,但同时也带来了一些值得思考的问题,比如是否可以用其他方式替代强化学习来利用reward模型的反馈等。