后训练之总结

用户844513426565

2025-10-21 34 阅读1分钟

不同的训练后优化方法各有优缺点，需要结合具体的资源、需求等来选择。

监督微调SFT通过最大化示例回答的概率来模仿目标响应模式；
直接偏好优化DPO通过对比学习鼓励优质回答/抑制劣质回答；
在线强化学习Online RL通过最大化回答的奖励函数进行优化。

在线强化学习较监督微调一般更少降低模型性能：

强化学习使用的三元组中的response是模型自身生成的，reward是奖励函数生成的，权重调整也是在模型原生空间内调整的；
SFT中的示例答案可能和模型的自然分布存在根本差异，模型在学习示例答案的过程（SFT训练过程）可能使得模型偏离其原始能力空间。