模型训练核心：ChatGPT 中的 RLHF 人工反馈强化学习模式 | 豆包MarsCode AI刷题RLHF 的训练

预训练大规模语言模型：这是 RLHF 的前提，依据海量高质量互联网文本语料，基于 Transformer 搭建 LLM 模型，但初始预训练模型常像做文字接龙游戏，难以切实回应人类需求。
训练监督模型 SFT：通过构造 prompt 并让数据标注人员手工回答问题，利用监督学习基于这些数据集微调预训练的 LLM 模型，不过可用于微调的数据量因成本等因素相对较少，若其足够庞大，SFT 结果可直接发布为 ChatGPT。
训练 Reward 模型：重点在于构建 reward 函数，雇标注人员对 SFT 模型输出结果做优劣判断，通过比较数据对训练 Reward 模型，它能对（prompt，response）组合给出评价的 Reward 值，以此指导模型参数调整方向，训练所用数据量相比预训练数据少很多，但可用于较广泛的预测范围。
基于 PPO 策略的 RLHF：利用强化学习结合 SFT 模型和 Reward 模型循环训练，目标是在 SFT 模型基础上训练出更好完成用户指令任务的 PPO 的 RL 模型，依据相应优化目标公式，参考 Reward 值、控制模型间差异、兼顾预训练目标等更新参数，反复迭代提升效果。

策略特点：介绍了 on-policy 和 off-policy 两种学习策略，PPO 算法本质是为避免执行动作策略和更新参数策略差别过大影响学习效果，通过相对熵等方式确保两个策略相近，同时还能稳定强化学习训练过程，如通过 clip 优势值的方式避免训练不稳定。

效果展示：对比不同策略训练模型在测试问题上的表现，表明 RLHF 中的 PPO 方法整体比 SFT 方法效果好很多。
本质理解：强化学习本质是让模型在现实世界环境中自适应学习，鉴于现实世界复杂度高难以拟合，OpenAI 用 reward 模型间接拟合现实世界，使预训练模型能感知并据此优化。

总结来看，RLHF 通过特定流程实现模型优化，PPO 算法保障训练稳定与效果提升，整体为让模型更好响应用户指令，同时留下开放性思考，探讨能否直接用 reward 模型结果作损失函数微调模型，引人深思，展现出 ChatGPT 训练机制的复杂性与创新性。