【今日论文】监督微调其实就是强化学习：洞见、创新与实际应用微调大语言模型（LLM）已经成为使其对齐人类意图的核心方法之一

微调大语言模型（LLM）已经成为使其对齐人类意图的核心方法之一。虽然从人类反馈中强化学习（RLHF）是流行选择，但它通常复杂且不稳定。令人惊讶的是，一个更简单的替代方法——在精挑细选的数据上进行监督微调（SFT）——在许多任务中表现异常优秀。近期论文《Supervised Fine-Tuning on Curated Data is Reinforcement Learning (and can be improved)》提供了一个强有力的新视角：SFT 本质上是一种强化学习形式，并可以通过一种名为 重要性加权监督微调（iw-SFT） 的技术加以改进。

本文将带你了解这篇论文的核心内容、技术创新、实际应用，并给出一个可运行的代码示例。

🤔 论文内容概览：SFT 本质上是 RL

作者指出，在精筛数据上的标准 SFT 可以被理解为在稀疏奖励设置下优化强化学习目标的下界。将训练数据筛选为“好样本”，等价于定义一个二值奖励（好=1，差=0）。此时，SFT 就成了从成功轨迹中学习的行为克隆。

这一观点搭建了监督学习与强化学习之间的桥梁，解释了 SFT 为什么有效——也揭示了它的局限性。

面临的问题：

标准 SFT 会丢弃失败样本，无法从中学习；
随着模型偏离参考策略（例如预训练模型或人工数据），优化下界的紧致性变差。

✨ 技术创新：重要性加权微调（iw-SFT）

为更紧地逼近 RL 目标，并加入更多训练信号，作者提出：

⚡ iw-SFT：

通过引入 importance weight（重要性权重）对每条样本的 loss 进行加权：

weight = p_model(τ) / p_ref(τ)

其中：

p_model(τ) 是当前模型生成该轨迹的概率；
p_ref(τ) 是参考模型生成该轨迹的概率。

🔹 优势：

能够在模型分布变化时继续学习；
从失败样本中恢复有效信号；
在不使用复杂 RLHF 的情况下，获得更高性能。

🔗 SFT(Q)：质量加权微调

当训练数据带有质量评分（如人类打分）时，可用得分作为样本权重，进一步逼近 RL 目标。

🌐 实际应用场景

1. LLM 微调与增强推理能力

提高模型在 AIME、GPQA、MATH500 等任务中的推理能力；
iw-SFT 在准确率上超过标准 SFT 高达 7%。

2. 离线强化学习（Offline RL）

替代控制任务中常用的复杂 RL 算法（如 MuJoCo、Franka Kitchen）；
iw-SFT 表现可与 IQL、AWAC、TD3+BC 等方法媲美。

3. 偏好建模 / 替代 RLHF

利用人类偏好分数直接优化模型行为，无需显式构造奖励模型。

4. 低资源任务

在高质量数据稀缺的任务中，iw-SFT 能放大每条数据的训练价值。

📊 总结

这篇论文重新诠释了我们对监督微调的理解：它不仅仅是“下一个 token 的预测”，其实隐藏着强化学习的本质。通过将 SFT 视为 RL，并引入重要性加权，我们不仅获得了理论上的洞见，也带来了实际性能提升。

如果你正在构建 LLM、训练控制策略、或优化人类偏好，iw-SFT 是一个简单但强大的微调升级方案。

原论文链接：Supervised Fine-Tuning on Curated Data is Reinforcement Learning (and can be improved)