【今日论文】监督微调其实就是强化学习:洞见、创新与实际应用

144 阅读3分钟

微调大语言模型(LLM)已经成为使其对齐人类意图的核心方法之一。虽然从人类反馈中强化学习(RLHF)是流行选择,但它通常复杂且不稳定。令人惊讶的是,一个更简单的替代方法——在精挑细选的数据上进行监督微调(SFT)——在许多任务中表现异常优秀。近期论文《Supervised Fine-Tuning on Curated Data is Reinforcement Learning (and can be improved)》提供了一个强有力的新视角:SFT 本质上是一种强化学习形式,并可以通过一种名为 重要性加权监督微调(iw-SFT) 的技术加以改进。

本文将带你了解这篇论文的核心内容、技术创新、实际应用,并给出一个可运行的代码示例。


🤔 论文内容概览:SFT 本质上是 RL

作者指出,在精筛数据上的标准 SFT 可以被理解为在稀疏奖励设置下优化强化学习目标的下界。将训练数据筛选为“好样本”,等价于定义一个二值奖励(好=1,差=0)。此时,SFT 就成了从成功轨迹中学习的行为克隆。

这一观点搭建了监督学习与强化学习之间的桥梁,解释了 SFT 为什么有效——也揭示了它的局限性。

面临的问题:

  • 标准 SFT 会丢弃失败样本,无法从中学习;
  • 随着模型偏离参考策略(例如预训练模型或人工数据),优化下界的紧致性变差。

✨ 技术创新:重要性加权微调(iw-SFT)

为更紧地逼近 RL 目标,并加入更多训练信号,作者提出:

⚡ iw-SFT:

通过引入 importance weight(重要性权重)对每条样本的 loss 进行加权:

weight = p_model(τ) / p_ref(τ)

其中:

  • p_model(τ) 是当前模型生成该轨迹的概率;
  • p_ref(τ) 是参考模型生成该轨迹的概率。

🔹 优势:

  • 能够在模型分布变化时继续学习;
  • 从失败样本中恢复有效信号;
  • 在不使用复杂 RLHF 的情况下,获得更高性能。

🔗 SFT(Q):质量加权微调

当训练数据带有质量评分(如人类打分)时,可用得分作为样本权重,进一步逼近 RL 目标。


🌐 实际应用场景

1. LLM 微调与增强推理能力

  • 提高模型在 AIME、GPQA、MATH500 等任务中的推理能力;
  • iw-SFT 在准确率上超过标准 SFT 高达 7%。

2. 离线强化学习(Offline RL)

  • 替代控制任务中常用的复杂 RL 算法(如 MuJoCo、Franka Kitchen);
  • iw-SFT 表现可与 IQL、AWAC、TD3+BC 等方法媲美。

3. 偏好建模 / 替代 RLHF

  • 利用人类偏好分数直接优化模型行为,无需显式构造奖励模型。

4. 低资源任务

  • 在高质量数据稀缺的任务中,iw-SFT 能放大每条数据的训练价值。

📊 总结

这篇论文重新诠释了我们对监督微调的理解:它不仅仅是“下一个 token 的预测”,其实隐藏着强化学习的本质。通过将 SFT 视为 RL,并引入重要性加权,我们不仅获得了理论上的洞见,也带来了实际性能提升。

如果你正在构建 LLM、训练控制策略、或优化人类偏好,iw-SFT 是一个简单但强大的微调升级方案。


原论文链接:Supervised Fine-Tuning on Curated Data is Reinforcement Learning (and can be improved)