微调大语言模型(LLM)已经成为使其对齐人类意图的核心方法之一。虽然从人类反馈中强化学习(RLHF)是流行选择,但它通常复杂且不稳定。令人惊讶的是,一个更简单的替代方法——在精挑细选的数据上进行监督微调(SFT)——在许多任务中表现异常优秀。近期论文《Supervised Fine-Tuning on Curated Data is Reinforcement Learning (and can be improved)》提供了一个强有力的新视角:SFT 本质上是一种强化学习形式,并可以通过一种名为 重要性加权监督微调(iw-SFT) 的技术加以改进。
本文将带你了解这篇论文的核心内容、技术创新、实际应用,并给出一个可运行的代码示例。
🤔 论文内容概览:SFT 本质上是 RL
作者指出,在精筛数据上的标准 SFT 可以被理解为在稀疏奖励设置下优化强化学习目标的下界。将训练数据筛选为“好样本”,等价于定义一个二值奖励(好=1,差=0)。此时,SFT 就成了从成功轨迹中学习的行为克隆。
这一观点搭建了监督学习与强化学习之间的桥梁,解释了 SFT 为什么有效——也揭示了它的局限性。
面临的问题:
- 标准 SFT 会丢弃失败样本,无法从中学习;
- 随着模型偏离参考策略(例如预训练模型或人工数据),优化下界的紧致性变差。
✨ 技术创新:重要性加权微调(iw-SFT)
为更紧地逼近 RL 目标,并加入更多训练信号,作者提出:
⚡ iw-SFT:
通过引入 importance weight(重要性权重)对每条样本的 loss 进行加权:
weight = p_model(τ) / p_ref(τ)
其中:
p_model(τ)是当前模型生成该轨迹的概率;p_ref(τ)是参考模型生成该轨迹的概率。
🔹 优势:
- 能够在模型分布变化时继续学习;
- 从失败样本中恢复有效信号;
- 在不使用复杂 RLHF 的情况下,获得更高性能。
🔗 SFT(Q):质量加权微调
当训练数据带有质量评分(如人类打分)时,可用得分作为样本权重,进一步逼近 RL 目标。
🌐 实际应用场景
1. LLM 微调与增强推理能力
- 提高模型在 AIME、GPQA、MATH500 等任务中的推理能力;
- iw-SFT 在准确率上超过标准 SFT 高达 7%。
2. 离线强化学习(Offline RL)
- 替代控制任务中常用的复杂 RL 算法(如 MuJoCo、Franka Kitchen);
- iw-SFT 表现可与 IQL、AWAC、TD3+BC 等方法媲美。
3. 偏好建模 / 替代 RLHF
- 利用人类偏好分数直接优化模型行为,无需显式构造奖励模型。
4. 低资源任务
- 在高质量数据稀缺的任务中,iw-SFT 能放大每条数据的训练价值。
📊 总结
这篇论文重新诠释了我们对监督微调的理解:它不仅仅是“下一个 token 的预测”,其实隐藏着强化学习的本质。通过将 SFT 视为 RL,并引入重要性加权,我们不仅获得了理论上的洞见,也带来了实际性能提升。
如果你正在构建 LLM、训练控制策略、或优化人类偏好,iw-SFT 是一个简单但强大的微调升级方案。
原论文链接:Supervised Fine-Tuning on Curated Data is Reinforcement Learning (and can be improved)