后训练之总结

34 阅读1分钟

不同的训练后优化方法各有优缺点,需要结合具体的资源、需求等来选择。

  • 监督微调SFT通过最大化示例回答的概率来模仿目标响应模式;

  • 直接偏好优化DPO通过对比学习鼓励优质回答/抑制劣质回答;

  • 在线强化学习Online RL通过最大化回答的奖励函数进行优化。

image.png 在线强化学习较监督微调一般更少降低模型性能:

  • 强化学习使用的三元组中的response是模型自身生成的,reward是奖励函数生成的,权重调整也是在模型原生空间内调整的;
  • SFT中的示例答案可能和模型的自然分布存在根本差异,模型在学习示例答案的过程(SFT训练过程)可能使得模型偏离其原始能力空间。