模型训练核心:ChatGPT 中的 RLHF 人工反馈强化学习模式 | 豆包MarsCode AI刷题

141 阅读4分钟

一、本堂课重点内容

1. RLHF 的基本原理:

   RLHF (Reinforcement Learning from Human Feedback) 是一种结合人工监督与强化学习的训练方法,用以提升模型对人类指令的响应能力。通过 Reward 模型模拟人类反馈,减少人工标注成本,提高训练效率。

2. RLHF 的三大关键步骤:

   (1)利用监督学习(Supervised Fine-Tuning, SFT)训练初始模型。 

   (2)构建 Reward 模型以评价生成的文本质量。 

   (3) 基于 PPO 策略优化,利用强化学习更新模型参数。

3. PPO 算法在 RLHF 中的作用:

   PPO(Proximal Policy Optimization)通过限制模型参数的更新幅度,保持训练稳定性,并引入 KL 散度约束强化学习模型与监督模型的相似性。

4. RLHF 方法的核心目标:

   在监督学习模型的基础上,结合 Reward 模型的反馈,通过强化学习进一步提升模型对用户指令的理解与生成能力。

二、详细知识点介绍

1. 强化学习在 NLP 的应用困难

评价复杂性: NLP 模型输出的质量无法用简单规则量化,需依赖人工反馈。

人工成本高昂: 大规模标注需耗费大量人力,难以支持高效训练。

2. RLHF 的训练流程

Step 0: 预训练语言模型

使用大规模文本语料预训练模型,获得初始的 LLM(大型语言模型)。此阶段的模型仅能进行简单的文字接龙,无法满足用户需求。

Step 1: 监督微调模型 (SFT)

目标: 克服模型接话的局限,使其能够回答问题。

方法:构建包含 prompt(输入)和人工回答的数据集。用监督学习对预训练模型进行微调。

挑战:数据量较少,无法直接达到高质量模型的要求。

Step 2: 训练 Reward 模型

目标: 模拟人类对模型输出的优劣评价。

方法:为每条 prompt 生成多条 response,通过人工评估排序(如 pairwise ranking)。构建 Reward 模型,以预测 response 的优劣关系。

技术细节:输入为 (prompt, response) 对,输出为一个标量值表示 Reward。训练时采用 pairwise 比较数据,使用 KL 散度优化模型。

Step 3: 基于 PPO 策略的强化学习

目标: 在 SFT 模型的基础上,通过强化学习提高模型生成质量。

流程:使用 SFT 模型生成 response。输入 (prompt, response) 到 Reward 模型,得到 Reward 值。利用 PPO 策略优化 response 生成策略。

公式解析:引入 KL 散度约束,防止强化学习模型产生不可控行为。将预训练目标(文本连贯性)纳入损失函数,确保输出自然。

3. PPO 算法的核心逻辑

核心思想:限制更新幅度,确保策略稳定。保持 SFT 策略与 RL 策略的相似性。

公式解读:使用 clip 函数限制 Advantage 值,避免训练不稳定。

4. RLHF 方法的优势

减少人工成本: Reward 模型可在多种场景中复用,减少人工标注需求。

灵活性强: 能处理千奇百怪的 prompt,无需每种场景都训练新的数据。

提升质量: 在监督学习基础上进一步优化模型能力。

三、实践练习例子

练习 1: 构建 SFT 数据集

目标: 使用真实用户问题和人工回答构建初始训练数据集。

示例数据:Prompt: "向一个 6 岁小孩解释什么是彩虹。" Response: "彩虹是下雨后天空中的一种颜色桥,它是太阳光穿过雨滴时分裂成了不同颜色。"

练习 2: 训练 Reward 模型

步骤:从 SFT 模型中生成多条 response。

对 response 进行人工排序,如:Response1: "彩虹是一种美丽的光圈。" Response2: "彩虹是太阳光穿过雨滴后形成的不同颜色。" (人工排序:Response2 > Response1)

使用排序数据训练 Reward 模型。

练习 3: 使用 RLHF 进行循环训练

目标: 基于 SFT 和 Reward 模型,优化生成质量。

实践:输入 prompt: "推荐一本适合学习机器学习的书籍。"

根据 Reward 模型反馈优化输出质量。

四、课后个人总结

1.RLHF 的意义:

RLHF 方法通过 Reward 模型桥接了人工反馈与强化学习,显著提升了模型理解和生成复杂任务的能力。

2.关键步骤复习:

预训练模型是基础,监督学习微调是起点,Reward 模型提供优化方向,强化学习实现性能提升。

3.实践中的挑战:

数据质量与多样性对 SFT 和 Reward 模型的效果至关重要。强化学习需稳定的优化算法(如 PPO),以避免参数发散。

4.开放性思考:

不采用强化学习,直接使用 Reward 模型的评分作为损失函数微调模型是否可行?此方法可能在处理复杂、多样的任务时效果受限,且缺乏自适应学习能力。

最终感悟:

RLHF 的核心是模拟人类反馈,将复杂的现实问题转化为模型可理解的评估标准。理解其原理和实践方法,将有助于更深入地探索 NLP 模型的训练与优化技术。