模型训练核心：ChatGPT 中的 RLHF 人工反馈强化学习模式 | 豆包MarsCode AI刷题RLHF是一种结合

一、本堂课重点内容

1. RLHF 的基本原理：

RLHF (Reinforcement Learning from Human Feedback) 是一种结合人工监督与强化学习的训练方法，用以提升模型对人类指令的响应能力。通过 Reward 模型模拟人类反馈，减少人工标注成本，提高训练效率。

2. RLHF 的三大关键步骤：

（1）利用监督学习（Supervised Fine-Tuning, SFT）训练初始模型。

（2）构建 Reward 模型以评价生成的文本质量。

（3）基于 PPO 策略优化，利用强化学习更新模型参数。

3. PPO 算法在 RLHF 中的作用：

PPO（Proximal Policy Optimization）通过限制模型参数的更新幅度，保持训练稳定性，并引入 KL 散度约束强化学习模型与监督模型的相似性。

4. RLHF 方法的核心目标：

在监督学习模型的基础上，结合 Reward 模型的反馈，通过强化学习进一步提升模型对用户指令的理解与生成能力。

二、详细知识点介绍

1. 强化学习在 NLP 的应用困难

评价复杂性： NLP 模型输出的质量无法用简单规则量化，需依赖人工反馈。

人工成本高昂：大规模标注需耗费大量人力，难以支持高效训练。

2. RLHF 的训练流程

Step 0: 预训练语言模型

使用大规模文本语料预训练模型，获得初始的 LLM（大型语言模型）。此阶段的模型仅能进行简单的文字接龙，无法满足用户需求。

Step 1: 监督微调模型 (SFT)

目标：克服模型接话的局限，使其能够回答问题。

方法：构建包含 prompt（输入）和人工回答的数据集。用监督学习对预训练模型进行微调。

挑战：数据量较少，无法直接达到高质量模型的要求。

Step 2: 训练 Reward 模型

目标：模拟人类对模型输出的优劣评价。

方法：为每条 prompt 生成多条 response，通过人工评估排序（如 pairwise ranking）。构建 Reward 模型，以预测 response 的优劣关系。

技术细节：输入为 (prompt, response) 对，输出为一个标量值表示 Reward。训练时采用 pairwise 比较数据，使用 KL 散度优化模型。

Step 3: 基于 PPO 策略的强化学习

目标：在 SFT 模型的基础上，通过强化学习提高模型生成质量。

流程：使用 SFT 模型生成 response。输入 (prompt, response) 到 Reward 模型，得到 Reward 值。利用 PPO 策略优化 response 生成策略。

公式解析：引入 KL 散度约束，防止强化学习模型产生不可控行为。将预训练目标（文本连贯性）纳入损失函数，确保输出自然。

3. PPO 算法的核心逻辑

核心思想：限制更新幅度，确保策略稳定。保持 SFT 策略与 RL 策略的相似性。

公式解读：使用 clip 函数限制 Advantage 值，避免训练不稳定。

4. RLHF 方法的优势

减少人工成本： Reward 模型可在多种场景中复用，减少人工标注需求。

灵活性强：能处理千奇百怪的 prompt，无需每种场景都训练新的数据。

提升质量：在监督学习基础上进一步优化模型能力。

三、实践练习例子

练习 1: 构建 SFT 数据集

目标：使用真实用户问题和人工回答构建初始训练数据集。

示例数据：Prompt: "向一个 6 岁小孩解释什么是彩虹。" Response: "彩虹是下雨后天空中的一种颜色桥，它是太阳光穿过雨滴时分裂成了不同颜色。"

练习 2: 训练 Reward 模型

步骤：从 SFT 模型中生成多条 response。

对 response 进行人工排序，如：Response1: "彩虹是一种美丽的光圈。" Response2: "彩虹是太阳光穿过雨滴后形成的不同颜色。" （人工排序：Response2 > Response1）

使用排序数据训练 Reward 模型。

练习 3: 使用 RLHF 进行循环训练

目标：基于 SFT 和 Reward 模型，优化生成质量。

实践：输入 prompt: "推荐一本适合学习机器学习的书籍。"

根据 Reward 模型反馈优化输出质量。

四、课后个人总结

1.RLHF 的意义：

RLHF 方法通过 Reward 模型桥接了人工反馈与强化学习，显著提升了模型理解和生成复杂任务的能力。

2.关键步骤复习：

预训练模型是基础，监督学习微调是起点，Reward 模型提供优化方向，强化学习实现性能提升。

3.实践中的挑战：

数据质量与多样性对 SFT 和 Reward 模型的效果至关重要。强化学习需稳定的优化算法（如 PPO），以避免参数发散。

4.开放性思考：

不采用强化学习，直接使用 Reward 模型的评分作为损失函数微调模型是否可行？此方法可能在处理复杂、多样的任务时效果受限，且缺乏自适应学习能力。

最终感悟：

RLHF 的核心是模拟人类反馈，将复杂的现实问题转化为模型可理解的评估标准。理解其原理和实践方法，将有助于更深入地探索 NLP 模型的训练与优化技术。