不需要标准答案,大模型也能自我进化?清华提出 TTRL,用"投票"替代标注做强化学习

0 阅读10分钟

不需要标准答案,大模型也能自我进化?清华提出 TTRL,用"投票"替代标注做强化学习

当测试数据没有标签,模型还能通过强化学习变强吗?TTRL 给出了一个令人惊讶的答案。

一个反直觉的发现

强化学习(RL)正在成为大语言模型(LLM)推理能力提升的核心引擎。从 DeepSeek-R1 到 OpenAI 的 o1,这些令人瞩目的推理模型背后,都离不开 RL 的加持。

但 RL 有一个绑得很紧的前提假设:你需要知道什么是"对的"。无论是人类标注的偏好数据,还是数学题的标准答案,奖励信号的来源始终依赖于某种形式的"ground truth"。

这就引出了一个尖锐的问题——当我们面对的是没有标准答案的测试数据时,RL 还能用吗?

清华大学和上海 AI Lab 的研究团队提出了一个大胆的方案:TTRL(Test-Time Reinforcement Learning)。核心思路出奇地简单——让模型对同一道题生成多个答案,用**多数投票(majority voting)**来估计"伪标签",再基于这个伪标签计算奖励,驱动 RL 训练。

结果令人意外:在 AIME 2024 这个极具挑战性的数学竞赛基准上,TTRL 将 Qwen2.5-Math-7B 的 pass@1 从 12.9 提升到了 40.2,提升幅度高达 211%——而这一切,完全不需要任何标注数据。

TTRL 的性能表现与方法定位

为什么这篇论文值得关注?

当前 RL for Reasoning 的主流范式有一个共同的瓶颈:对标注数据的依赖

GRPO、PPO 等方法在数学推理上取得了显著成功,但它们都需要带有标准答案的训练数据来计算奖励。随着任务难度不断攀升(比如 ARC-AGI-2 这样的前沿挑战),高质量标注变得越来越昂贵,甚至不可行。

TTRL 的意义在于,它打破了这个依赖链条:

  • 不需要标注数据:直接在无标签的测试数据上做 RL
  • 模型自我进化:利用模型自身的先验知识生成奖励信号
  • 通用性强:在 4 个模型家族、多种规模上都有效

一句话理解:TTRL 让模型在"考试"的时候,一边做题一边学习,而且不需要答案册。

TTRL 的核心思路

传统 RL 的流程是:模型生成输出 → 与标准答案比对 → 计算奖励 → 更新模型。

TTRL 的关键改变在于奖励信号的来源。既然没有标准答案,那就让模型自己"投票"选出一个:

  1. 给定一道题,让模型生成 N 个候选答案
  2. 对这 N 个答案做多数投票,得票最多的答案作为"伪标签"
  3. 将每个候选答案与伪标签比对:一致的得 1 分,不一致的得 0 分
  4. 用这些奖励信号驱动 RL 训练(具体使用 GRPO 算法)

TTRL 方法流程图,结合了 TTS 和 TTT

这个设计巧妙地将**测试时缩放(Test-Time Scaling)测试时训练(Test-Time Training)**结合在了一起:多数投票本身就是一种 TTS 策略,而用投票结果驱动 RL 训练则属于 TTT 的范畴。

你可能会问:多数投票的结果不一定对啊?没错,伪标签确实会有噪声。但论文发现,这种"不完美的奖励"竟然足以驱动有效的学习——这是 TTRL 最反直觉的地方之一。

TTRL 具体怎么做?

TTRL 的实现流程可以拆解为以下几步:

第一步:采样生成候选答案。 对于每道测试题,模型以一定温度(temperature=0.6)生成 64 个候选回答。

第二步:多数投票估计伪标签。 从 64 个回答中提取答案,统计出现频率最高的答案作为伪标签 ŷ。

第三步:计算奖励。 对每个候选答案,如果与伪标签一致则奖励为 1,否则为 0。这就是论文中的 majority voting reward function。

第四步:RL 训练。 使用 GRPO 算法,基于上述奖励信号更新模型参数。论文采用了"先投票再采样"的策略——从 64 个回答中选 32 个用于训练,有效降低了计算开销。

第五步:迭代。 在多个 epoch 上重复上述过程。随着模型变强,投票的准确率也会提高,形成正向循环。

关键结论:TTRL 的奖励信号是"自举"的——模型用自己的集体智慧来指导自己的学习。

实验结果:全面且令人信服

论文在 4 个基准测试上验证了 TTRL 的效果:AIME 2024(数学竞赛)、AMC(数学竞赛)、MATH-500(数学推理)和 GPQA-Diamond(研究生级别问答)。

核心发现一:TTRL 在各种模型上都有效

论文测试了 6 个模型家族、涵盖 base 模型和 instruct 模型:

  • Qwen2.5-Math-1.5B:AIME 2024 上从 7.7 提升到 15.8(+105%)
  • Qwen2.5-Math-7B:AIME 2024 上从 12.9 提升到 40.2(+211%)
  • Qwen2.5-32B:AIME 2024 上从 7.9 提升到 24.0(+204%)
  • LLaMA-3.1-8B:AIME 2024 上从 4.6 提升到 10.0(+117%)

四个基准的平均提升达到 76%

TTRL 在各任务上的主要结果

核心发现二:对已经很强的推理模型依然有效

你可能会想:TTRL 对 base 模型有效不奇怪,但对已经经过大量后训练的推理模型呢?

论文测试了 Skywork-OR1-Math-7B 和 Qwen3-8B 这两个强推理模型。结果显示,TTRL 仍然能带来约 10 个百分点的提升。这说明 TTRL 的收益与后训练阶段的优化是互补的。

TTRL 在 LRM 上的表现

核心发现三:泛化能力出色

一个关键问题是:在某个测试集上做 TTRL,会不会导致过拟合?

论文做了一个漂亮的实验:在一个基准上训练 TTRL,然后在其他基准上评估。结果表明,TTRL 不仅在训练基准上提升显著,在未见过的基准上也有明显提升。例如,在 AIME 2024 上训练后,AMC 和 MATH-500 的性能也同步提高。

这说明 TTRL 学到的不是"答案记忆",而是更通用的推理能力。

TTRL 的跨分布泛化表现

核心发现四:与不同 RL 算法兼容

TTRL 并不绑定于某个特定的 RL 算法。论文测试了 GRPO、PPO 和 PRIME 三种算法,发现它们在 TTRL 框架下的表现轨迹高度一致,说明 TTRL 的有效性来自于框架本身,而非某个特定算法的特性。

不同 RL 算法在 TTRL 下的对比

为什么 TTRL 能 work?

这可能是整篇论文最引人深思的部分。论文从三个角度分析了 TTRL 的有效性:

1. 带噪声的伪标签为什么够用?

多数投票的伪标签不可能 100% 正确,但论文指出两个关键原因:

  • 已有研究表明,RL 对奖励噪声有一定的鲁棒性,即使奖励信号不完美,模型仍能学到有用的策略
  • 随着训练进行,模型变强 → 投票更准 → 奖励更准 → 模型更强,形成自增强的正反馈循环

2. 训练动态揭示了"自举"效应

论文追踪了训练过程中 pass@1 和 maj@16 两个指标的变化。一个惊人的发现是:TTRL 训练后的模型,其 avg@16 分数超过了初始模型的 maj@16 分数超过 20 个百分点

这意味着什么?模型不仅学会了"跟随多数",还真正提升了自身的推理能力,超越了投票本身能达到的上限。

一句话理解:模型"拽着自己的鞋带把自己提了起来"(lifts itself up by its own bootstraps)。

TTRL 在 AMC 上的训练动态

3. 接近"开卷考试"的性能

论文设计了一个极端对照实验:直接用测试集的真实标签做 RL(即"信息泄露"场景)。结果发现,TTRL 的性能曲线与这个理论上限惊人地接近

这说明 TTRL 在无监督设置下,几乎达到了有监督 RL 的效率。

TTRL 与 RL (Leakage) 的对比

TTRL 在哪些情况下可能失效?

论文也坦诚地讨论了 TTRL 的局限性:

1. 当模型初始能力太弱时。 TTRL 依赖多数投票来估计伪标签,如果模型本身对某类问题的正确率极低,投票结果就会被错误答案主导。论文发现,当初始 maj@N 准确率低于某个阈值时,TTRL 的提升会大幅缩水甚至失效。

2. 当任务是开放式生成时。 TTRL 目前主要在有确定性答案的任务(数学、选择题)上验证。对于创意写作、开放式问答等没有唯一正确答案的任务,多数投票的语义就不太明确了。

3. 数据规模的限制。 论文的实验主要在几百道题的规模上进行。当测试集非常小时,投票的统计可靠性会下降;而如何高效地扩展到大规模无标签数据,仍是一个开放问题。

4. 奖励函数的局限。 当前的 majority voting reward 是二值的(0 或 1),无法提供细粒度的反馈。论文提到,探索更精细的奖励设计(如基于置信度的软奖励)是未来的重要方向。

这对 LLM 训练的未来意味着什么?

TTRL 的意义远不止于一个技术方法的创新,它指向了一个更深远的方向:

模型的持续自我进化。 传统的训练范式是"训练一次,部署使用"。TTRL 打开了一扇门——模型在部署后,面对新的、无标签的数据时,仍然可以继续学习和进化。这与 Silver & Sutton 提出的"经验时代"(era of experience)的愿景高度契合。

降低对人类标注的依赖。 随着任务复杂度的提升,高质量标注的成本呈指数增长。TTRL 表明,在特定条件下,模型可以通过自身的集体智慧来替代人类标注,这对于扩展 RL 训练的规模具有重要意义。

测试时计算的新范式。 TTRL 将测试时缩放(TTS)从"只做推理"扩展到了"边推理边学习",为测试时计算开辟了新的可能性。

Gemini_Generated_Image_2a4r9q2a4r9q2a4r

写在最后

TTRL 用一个简洁而优雅的思路,回答了一个看似不可能的问题:没有标准答案,模型也能通过强化学习变强。

多数投票——这个在推理阶段被广泛使用的"老技巧"——被赋予了全新的角色:不再只是提升推理准确率的工具,而是成为了驱动模型自我进化的奖励信号。更令人惊讶的是,模型通过这种"自举"式的学习,不仅达到了投票本身的性能上限,还成功超越了它。

当然,TTRL 目前还有明确的适用边界——它更适合有确定性答案的任务,且依赖模型具备一定的初始能力。但它所揭示的可能性是激动人心的:在一个标注数据日益稀缺、而无标签数据无处不在的世界里,让模型学会"自己教自己",或许是通向更强 AI 的必经之路。

论文链接:github.com/PRIME-RL/TT…

更多资源获取欢迎关注我的公众号:「木子吉星」

公众号二维码.jpg