不同的训练后优化方法各有优缺点,需要结合具体的资源、需求等来选择。
-
监督微调SFT通过最大化示例回答的概率来模仿目标响应模式;
-
直接偏好优化DPO通过对比学习鼓励优质回答/抑制劣质回答;
-
在线强化学习Online RL通过最大化回答的奖励函数进行优化。
在线强化学习较监督微调一般更少降低模型性能:
- 强化学习使用的三元组中的response是模型自身生成的,reward是奖励函数生成的,权重调整也是在模型原生空间内调整的;
- SFT中的示例答案可能和模型的自然分布存在根本差异,模型在学习示例答案的过程(SFT训练过程)可能使得模型偏离其原始能力空间。