一文说清:为什么SFT负责记忆 ,RL负责泛化?

0 阅读17分钟

摘要

监督微调 (SFT)和强化学习(RL)是基础模型广泛采用的后训练技术。然而,它们各自在增强模型泛化能力方面的作用仍不明确。

图片

本文研究了 SFT 和 RL 对泛化和记忆的相对影响,重点关注文本和视觉环境。

我们引入了 Generalpoints,一种算术推理卡牌游戏,并考虑了 V-IRL,一个真实世界的导航环境,以评估使用 SFT 和 RL训练的模型如何在文本和视觉领域泛化到未见过的变体。

图片

我们发现,RL,特别是当使用基于结果的奖励进行训练时,在基于规则的文本和视觉环境中均能展现出泛化能力。

相比之下,SFT倾向于记忆训练数据,并且在两种情况下都难以泛化到分布外的数据。进一步的分析表明,RL提升了模型潜在的视觉识别能力,从而有助于其在视觉领域增强泛化能力。

尽管 RL具有更强的泛化能力,但我们发现 SFT对于有效的 RL训练仍然至关重要: SFT稳定了模型的输出格式,使得后续的RL能够实现性能的提升。这些研究结果证明了 RL 在复杂的、多模态任务中获取可泛化知识的优势。

图片

引言

虽然 SFT 和 RL 都被广泛用于基础模型训练,但它们对泛化的独特影响仍然不清楚,这使得构建可靠和鲁棒的AI智能体系统具有挑战性。

分析基础模型的泛化能力的一个关键挑战是将数据记忆1与可迁移原则的获取分离开来。因此,我们研究了SFT或RL主要是记忆训练数据,还是学习可以适应新任务变体的可泛化原则这一关键问题。

为了解决这个问题,我们关注泛化的两个方面:基于文本的规则泛化和视觉泛化。对于文本规则,我们研究模型将学习到的规则(给定文本提示词)应用于这些规则的变体的能力。

图片

对于视觉语言模型(VLM),视觉泛化衡量在给定任务中,视觉输入(如颜色和空间布局)变化时性能的一致性。为了研究基于文本和视觉的泛化,我们研究了两个不同的任务,这两个任务体现了基于规则和视觉的变体。

我们的第一个任务是Generalpoints,这是一个原创的纸牌游戏任务,类似于RL4VLM 中的 Points24 任务,旨在评估模型的算术推理能力。

在 Generalpoints中,模型接收四张牌(以文本描述或图像形式呈现),并且需要使用每张牌的数值恰好一次来计算目标数字(默认为 24)。其次,我们采用了v-IRL,这是一个真实的导航任务,侧重于模型的空间推理能力。

图片

Training Computation(GFLOPs) 1e9

我们采用类似于 @zhai2024finetuning 的多步强化学习框架,通过在主干模型上进行监督微调(SFT)后实例化强化学习(RL),并使用顺序修订公式。

在 Generalpoints和V-IRL中我们观察到强化学习(RL)学习了可泛化的规则(以文本形式表达),其中分布内的性能提升也转移到了未见过的规则。相比之下,监督微调(SFT)似乎记住了训练规则,并且无法泛化(例如:参见1)。

除了基于文本规则的泛化之外,我们还进一步研究了视觉领域的泛化,并观察到强化学习(RL)也泛化到了视觉分布外(OOD)任务,而监督微调(SFT)仍然表现不佳。

图片

作为视觉分布外(OOD)泛化能力的副产品,我们的多轮强化学习(RL)方法在v-IRL 小型基准测试中实现了最先进的性能,提高了+33.8%,突显了强化学习(RL) 的泛化能力。

为了理解强化学习(RL)如何影响模型的视觉能力,我们对 Generalpoints进行了额外的分析,揭示了使用基于结果的奖励函数训练强化学习(RL)可以提高视觉识别能力。

虽然强化学习(RL)表现出比监督微调(SFT)更优越的泛化能力,但我们表明监督微调(SFT)仍然有助于稳定模型的输出格式,使强化学习(RL)能够实现其性能提升。

最后但并非最不重要的一点是,我们观察到通过增加最大步数来扩大推理时间计算可以带来更好的泛化。

图片

Post-training.

后期训练对于提升模型性能至关重要。此阶段通常采用大规模监督微调(SFT)和/或强化学习(RL)。SFT通过在特定任务的、通常为指令格式的数据集上训练预训练模型,使其适应下游任务。

先前的研究,例如 FLAN,表明在多样化的指令调整数据集上进行微调可以显著提升在未见任务上的零样本学习性能。

此外,LIMA 表明,监督微调充当了一个“格式教师”,有效地使模型的响应适应所需的格式,同时利用了预训练大语言模型的能力。

图片

相比之下,强化学习主要用于使模型与人类偏好对齐,或训练基础模型来解决特定任务。

我们的工作与先前的研究不同,因为我们的目标是比较分析 SFT和 RL在大语言模型和视觉语言模型上的泛化和记忆能力,而先前的研究主要集中在仅研究这两种后期训练方法中的一种(或仅研究大语言模型或视觉语言模型),或者仅研究一种后期训练方法。

大语言模型/视觉语言模型中的记忆与泛化

多项研究已经检验了神经网络中记忆和泛化之间的相互作用。在大语言模型中,记忆可以表现为模型记住训练数据,而泛化则反映了模型输出分布与预训练数据分布之间的差异。

图片

先前的研究表明,大语言模型在更简单、知识密集的任务上表现出更多的过拟合,而在更复杂、推理密集的任务上表现出更大的泛化能力。

例如,最近的研究表明,大语言模型通过在自回归生成之前预先计算推理图,发展出超出其训练数据的推理技能,这为泛化提供了有力的证据。

我们的研究采取了一种不同的方法,通过研究不同的后训练范式在基于文本规则和视觉变体的情况下对记忆与泛化的作用。

我们在单模态(大语言模型)和多态(视觉语言模型)设置中进行了比较研究,并证明强化学习(RL)比监督微调(SFT)能带来更好的泛化性能。

图片

扩展推理时计算

最近的研究越来越关注扩展推理时计算,以提高模型性能。早期的研究引导模型生成中间推理步骤,并在给出最终答案之前扩展响应。

随后的工作表明,在推理过程中微调验证器可以提高模型准确性,从而有效地利用测试时计算。

最近的研究结果揭示了推理时计算的“缩放定律”,强调了增加计算资源带来的显著性能提升。

我们的工作在两个方面基于这些发现。首先,我们将推理时验证的见解整合到一个多轮强化学习(RL)公式中,该公式允许模型识别并纠正其错误。

图片

其次,我们研究了推理时验证对强化学习泛化的影响,表明扩展推理时验证(就最大验证步骤数而言)是强化学习泛化的关键,提升视觉语言模型(VLMs)的视觉能力。

尽管视觉语言模型在解决各种具有挑战性的任务(例如解决高级大学考试题和空间理解任务)方面展现出了卓越的技能,但它们在视觉感知方面也存在局限性。

先前为增强视觉语言模型的视觉感知所做的努力包括结合多个视觉编码器、策划高质量的SFT数据,以及通过解冻视觉骨干网络来改进SFT微调训练方法。

虽然这些先前的工作主要侧重于在SFT微调阶段进行的实验,但我们的工作表明,强化学习(RL)也可以提高视觉感知。

图片

标准强化学习术语

图片

图片

图片

评估任务

为了评估不同后训练方法的泛化能力,我们选择了两个任务,这两个任务都提供了规则和视觉变化。

第一个任务 Generalpoints 是我们设计的一个新环境,用于评估算术推理能力。

第二个任务 V-IR 被选择来检验模型在开放世界视觉导航领域的推理能力。

通用点数环境

我们最初的 Generalpoints环境,在 Points24 环境之上实例化,旨在评估算术推理的泛化能力。

环境的每个状态s包含4 张卡片,以文本形式(在 GP-变体中)或以图像形式(在GP-VL 变体中)描述; 有关Generalpoints的视觉示例,请参见图2左侧。

目标是使用卡片上的所有4个数字,且每个数字仅使用一次,生成一个等于目标数字(默认为 24)的等式。

请注意,当 Generalpoints 的输入以图像形式呈现(GP-VL)时,它自然需要视觉语言模型 (VLM)在解决等式之会引入额外的视觉挑战,很难识别所有卡片。

规则变体。

为了研究模型是学习算术运算还是仅仅记忆训练后的数据我们在 Generalpoints 中引入了规则变体。

这些变体包括将符号J、Q 和K分别解释为 、和,或者全部解释为相同的数字。这些变体确保了对模型在不同设置下泛化算术推理能力的严格评估。

每个规则都在输入提示词中以文本形式指定,请参见图3中的{tasks rules}部分。为了研究基于规则的泛化,我们使用一种规则对模型进行微调,然后使用不同的规则进行评估。

视觉变体。

Genera1points环境也可以自然地进行定制,以评估跨视觉变体的泛化能力。由于主要的视觉挑战是识别每张卡片的数字: 而与卡片的颜色无关,我们将不同颜色的卡片视为该任务的视觉变体。

在视觉泛化设置中,我们使用一种颜色的卡片训练模型,然后使用另一种颜色测试 OOD(分布外)性能。

图片

V-IRL 环境

虽然 Generalpoints 环境旨在评估算术推理能力,但我们进一步利用 V-IRL 环境来研究开放世界导航领域中空间推理能力,该领域使用真实的视觉输入。

与Generalpoints类似,我们考虑该环境的两个版本,一个(V-IRL-L)由纯语言描述组成2另一个(V-IRL-VL)包括视觉-语言输入。

V-IRL 中的主要视觉挑战在于在采取行动之前从视觉观察中识别不同的地标3。目标是通过遵循包含空间信息的一组指令导航到目标位置。

规则变体

为了评估模型是否具备空间知识,或者仅仅是记忆了训练后的数据,我们考虑两种不同的动作空间配置。

第一种变体使用绝对方向动作空间,包括{北,东北,东,东南,南,西南,西,西北}。

第二种变体采用相对方向动作空间,包含{左,右,稍微左,稍微右}。这种相对配置分别将当前方向向左或向右调整 90 度或45 度。v-IRL 中导航任务的概述在图4中提供。

视觉变化。

V-IRL 中的主要视觉挑战在于从视觉观察中识别地标(例如,图4中所示的绿色部分)。

由于V-IR环境包含来自不同城市的视觉观察,我们可以通过训练模型在一个地点进行导航,然后在不同地点评估其性能来评估 V-IRL 中的视觉泛化能力。

结果

图片

图片

在本节中,我们展示了一些实验,这些实验旨在研究通过强化学习(RL)和监督微调(SFT)进行后训练所带来的泛化能力我们采用 Llama-3.2-Vision-11B 作为主干模型。

遵循 RLHF 和RL4VLM 的标准流程,我们在运行 RL 之前使用 SFT 初始化模型。我们特别研究以下问题:

SFT 或 RL 如何影响模型对不同规则的泛化能力?

当模型包含视觉组件时,RL/SFT如何影响其对不同视觉变体的泛化能力?

RL/SFT如何影响视觉语言模型(VLM)中的视觉识别能力?

SFT 在 RL 训练中扮演什么角色?

验证迭代次数如何影响泛化能力?

规则泛化

我们评估了不同的后训练方法在 Generalpoints和V-IRL上的性能。这两个任务各自包含纯语言(-)和视觉语言(-V)变体,并且都包含规则的变体。

对于每个任务,我们分别针对单个规则,调整 RL和 SFT的训练计算量。

在 Generalpoints任务中,分布内(ID)的情况将所有J、Q、K视为 10,而分布外(OOD)的情况则将它们分别解释为 11、12和13。

对于V-IRL 任务,分布内(ID)的情况采用绝对方向坐标系,而分布外(OOD)的情况则使用相对方向动作空间。

RL 泛化,SFT 记忆。

如图5所示,强化学习(RL)在所有任务上,包括单态(LLM)和多模态(VLM),都持续提高超出分布(OOD)的性能。

具体而言,图6表明,强化学习(RL)在GP-L上实现了[+3.5%]的增长(11.5%→15.0%),在 V-IRL-L 上实现了[+11.0%]的增长(80.8%-> 91.8%)。

即使在 VLM 中增加了视觉识别的挑战,强化学习(RL)在 GP-VL上仍然保持了+3.0%的一致性能提升,在 v-IRL-V上则为+9.3%

相比之下,监督微调(SFT)在所有任务的所有超出分布(OOD)评估中都表现出性能下降: 在GP-L上-8.1%,在V-IR-L上-79.5%,在GP-VL上-5.6%,在V-IRL-V上-33.2%

图片

图片

视觉分布外任务中的泛化

强化学习(RL)在规则变化中展现出泛化能力,而监督微调(SFT)则呈现相反的趋势。

由于视觉语言模型(VLMS)也包含视觉模态,接下来我们将研究视觉变化对分布外(OOD)泛化的影响。

对于Generalpoints,我们使用黑色花色(,)训练视觉语言模型,并在红色花色(,)上测试其分布外性能。

对于v-IR,我们使用在纽约市收集的路线数据训练模型,并在包含世界各地不同城市路线的原始v-IRL视觉语言导航(VLN)迷你基准上评估模型。请注意,本节中的实验规则保持一致。

RL 在视觉 OOD 任务中展现泛化能力

图片

图片

如图7 所示,我们观察到 RL仍然在视觉 OOD 任务中展现泛化能力,而 SFT的表现则持续下降。

具体而言,在Gp-VL 和VIRL-VL 中,RL的性能提升分别为+17.6%+61.1%,而 SFT的性能则分别下降了-9.9% 和 -5.6%。

作为这项视觉 OOD 研究的额外成果,我们还展示了我们的多轮 RL方法改进了 v-IRL 小型基准测试中的最先进结果(参见 @yang2024v的表5),性能提升了 +33.8%

与 V-IRL 中报告的先前最先进方法不同,该方法依赖于两阶段 VLM-LLM 协作技术以及在闭源模型上进行的定制化提示词工程,我们的端到端 RL 方法使得开源模型能够达到更优越的性能。

RL 提升视觉能力

基于上述观察,即使用 RL训练的视觉语言模型(VLM)可以泛化到视觉 OOD 任务,我们考虑一个自然的后续问题: RL 如何影响 VLM 的视觉能力?

为了研究这个问题,我们在 GP-VL 环境中进行了额外的消融研究,以调查 RL和 SFT的 OOD 性能,以及模型在识别输入图像中的4张卡片方面的视觉识别准确率。

特别是,我们研究了通过 RL/SFT 扩展后训练计算如何影响基于规则的OOD 的泛化,以及视觉识别准确率和视觉 OOD)

扩展强化学习(RL)提升视觉语言模型(VLM)训练中的视觉识别准确率。

如图8所示,我们观察到视觉语言模型的视觉识别准确率在很大程度上影响了整体性能,这与@zhong2024law中的观察结果相似。

此外,扩展强化学习的计算量也提高了视觉识别准确率,这是其泛化能力的副产品。而扩展监督微调(SFT)则会降低视觉识别准确率和整体性能。

SFT在 RL训练中的作用

尽管如前所述,强化学习(RL)在泛化模型的推理和视觉能力方面具有优越性,但实验流程仍然是在 SFT之后 实例化 RL。

在本小节中,我们关注另一个关键问题:SFT对于RL训练是否是必要的?为了回答这个问题,我们进行了额外的实验,直接将端到端的 RL 应用于对基础模型 Llama3.2 进行后训练,在纯语言情况下使用 GeneralPoints。

图片

当主干模型不遵循指令时,SFT(监督微调)对于RL(强化学习)训练是必要的。

图2表明,如果没有 SFT,所有端到端的 RL 运行都无法取得改进。更具体地说,我们观察到,如果没有 SFT,基础模型会表现出较差的指令遵循能力。

在图9提供了一个详细的失败案例,揭示了基础 Llama-3.2-Vision-11B 模型倾向于生成冗长、离题且非结构化的响应。

这个问题使得检索任务相关的信息和用于 RL训练的奖励变得不可能。请注意,由于主干模型的差异,我们的结果与@deepseekai2025deepseekr1的结果并不矛盾,后者认为SFT对于下游 RL 训练是不必要的。

验证迭代的作用

验证是我们多步骤训练和评估流程中的另一个关键组成部分(参见图10)。为了验证其必要性并更好地理解其效果,我们使用 GP-L 进行了不同验证迭代次数{1,3,5,10}的强化学习实验。

图片

扩大验证规模可以提高泛化能力。

在图3中,我们观察到,随着验证步骤的增加,强化学习的泛化能力表现更佳。

更具体地说,在所有实验的计算预算相同的情况下,我们观察到[+2.15%]{style="color: darkgreen"}(3步)[+2.99%]{style="color: darkgreen"}(5步)和[+5.99%]{style="color: darkgreen"}(10步)的性能提升。

相比之下,在仅有一个验证步骤的情况下,我们仅观察到OOD(超出分布)性能的[+0.48%]的边际提升。

参考:**《SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training》