玄拒绝学：深度拆解PPO姿势，让你的大模型真正调整人类偏好大家好，我是你们的AI技术博主。在LLM（大语言模型）的开发

大家好，我是你们的AI技术博主。

在LLM（大语言模型）的开发队列中，SFT（有监督加重）之后，大家最关心的莫过于RLHF（基于人类反馈的强化学习） 。而提到的RLHF，PPO（近端策略优化，近端策略优化） 绝对是那个让人又爱又恨的“深坑”。

很多同学在尝试 PPO 的时候会发现：代码跑通了，损失函数也降了，但模型效果却没有提升，甚至还不如 SFT 之后的版本。这其实是因为 PPO 的应用涉及远不止算法本身。真正的核心往往隐藏在论文的只言片语中，需要结合大量实践去深入。

今天，我把这些隐藏在纸面下的“经验碎片”捡起来，深度拆解如何让PPO真正发挥威力。

一、技术原理：分点讲解核心概念

如果说SFT是让模型“背课文”，那么PPO就是让模型“学做人”。

PPO的过程其实是一个不断迭代的闭环，主要包含：

从本质上讲， PPO是在SFT建立的采样空间里做熵减。

熵（Entropy） ：代表了模型生成结果的不确定性。
空间决定上限：SFT后，模型能吐出很多答案（有好的有坏的）。PPO的任务是通过奖励信号，把那些“差答案”的概率抹除，把“如果好答案”的概率推高。SFT阶段模型已经“模式缺口”，仅仅吐出一个固定答案，那PPO就没有优化的空间了。

想要跑通一次高质量的PPO，不能只追求损失曲线，更要关注采样质量。

在开始PPO之前，必须先给你的终极模型做个“检查”。

由于不同提示的难度不同，RM给出的绝对分数往往带有噪音建议。采纳Reward Norm处理：

$Reward_{norm} = Reward - Mean(Same\ Prompt) + Global\ Mean$

通过这种正则化，我们可以消除不同指令之间的基础分差，纯粹观察相同指令下不同答案的区分度，这对于PPO的稳定性学习至关重要。

PPO训练是否成功，不能只看奖励是否在涨，因为模型可能会学会“钻空子”（Reward Hacking）。

在训练过程中，模型生成的分配在变。如果RM的准确率下降，PPO就会把模型带进沟里。

通过对比Choice（选中）和Reject（拒绝）答案在模型中的Logp概率。如果Choice的概率持续升高且与Reject相比，说明模型确实在向人类偏好偏倚。

大多数失败可以归结为两点：

PPO的本质就是：降低采样分布中低分区域的概率密度，增加高分区域的概率密度。

它不仅仅是一个算法，更是一套工程体系。当一个新技术出现时，我们往往会过度列出其算法的精妙程度，而忽略了工程实现、数据分布和业务调整这些决策性细节。从目前的发展趋势来看，大模型能力正在逐渐从“通用模型”走向“场景化模型”。

与其等待一个什么都能做的超级模型，不如根据具体需求，对模型进行定向微调。

像 LLaMA-Factory Online 这类平台，本质上就是在帮更多个人和小团队，参与到这条趋势里来，让“定制模型”变得不再只是大厂专属。

下一步建议： 如果你正准备开始PPO，认知先拉出你SFT模型的奖励分配图。如果分配已经是一条直线，记得先回过头去调整你的SFT策略或增加数据多样性。

您对 PPO 的训练参数还有哪些疑问？欢迎在评论区留言交流！