不需要标准答案，大模型也能自我进化？清华提出 TTRL，用"投票"替代标注做强化学习不需要标准答案，大模型也能自我进化？

不需要标准答案，大模型也能自我进化？清华提出 TTRL，用"投票"替代标注做强化学习

当测试数据没有标签，模型还能通过强化学习变强吗？TTRL 给出了一个令人惊讶的答案。

一个反直觉的发现

强化学习（RL）正在成为大语言模型（LLM）推理能力提升的核心引擎。从 DeepSeek-R1 到 OpenAI 的 o1，这些令人瞩目的推理模型背后，都离不开 RL 的加持。

但 RL 有一个绑得很紧的前提假设：你需要知道什么是"对的"。无论是人类标注的偏好数据，还是数学题的标准答案，奖励信号的来源始终依赖于某种形式的"ground truth"。

这就引出了一个尖锐的问题——当我们面对的是没有标准答案的测试数据时，RL 还能用吗？

清华大学和上海 AI Lab 的研究团队提出了一个大胆的方案：TTRL（Test-Time Reinforcement Learning）。核心思路出奇地简单——让模型对同一道题生成多个答案，用**多数投票（majority voting）**来估计"伪标签"，再基于这个伪标签计算奖励，驱动 RL 训练。

结果令人意外：在 AIME 2024 这个极具挑战性的数学竞赛基准上，TTRL 将 Qwen2.5-Math-7B 的 pass@1 从 12.9 提升到了 40.2，提升幅度高达 211%——而这一切，完全不需要任何标注数据。

TTRL 的性能表现与方法定位

为什么这篇论文值得关注？

当前 RL for Reasoning 的主流范式有一个共同的瓶颈：对标注数据的依赖。

GRPO、PPO 等方法在数学推理上取得了显著成功，但它们都需要带有标准答案的训练数据来计算奖励。随着任务难度不断攀升（比如 ARC-AGI-2 这样的前沿挑战），高质量标注变得越来越昂贵，甚至不可行。

TTRL 的意义在于，它打破了这个依赖链条：

不需要标注数据：直接在无标签的测试数据上做 RL
模型自我进化：利用模型自身的先验知识生成奖励信号
通用性强：在 4 个模型家族、多种规模上都有效

一句话理解：TTRL 让模型在"考试"的时候，一边做题一边学习，而且不需要答案册。

TTRL 的核心思路

传统 RL 的流程是：模型生成输出 → 与标准答案比对 → 计算奖励 → 更新模型。

TTRL 的关键改变在于奖励信号的来源。既然没有标准答案，那就让模型自己"投票"选出一个：

给定一道题，让模型生成 N 个候选答案
对这 N 个答案做多数投票，得票最多的答案作为"伪标签"
将每个候选答案与伪标签比对：一致的得 1 分，不一致的得 0 分
用这些奖励信号驱动 RL 训练（具体使用 GRPO 算法）

TTRL 方法流程图，结合了 TTS 和 TTT

这个设计巧妙地将**测试时缩放（Test-Time Scaling）和测试时训练（Test-Time Training）**结合在了一起：多数投票本身就是一种 TTS 策略，而用投票结果驱动 RL 训练则属于 TTT 的范畴。

你可能会问：多数投票的结果不一定对啊？没错，伪标签确实会有噪声。但论文发现，这种"不完美的奖励"竟然足以驱动有效的学习——这是 TTRL 最反直觉的地方之一。

TTRL 具体怎么做？

TTRL 的实现流程可以拆解为以下几步：

第一步：采样生成候选答案。 对于每道测试题，模型以一定温度（temperature=0.6）生成 64 个候选回答。

第二步：多数投票估计伪标签。 从 64 个回答中提取答案，统计出现频率最高的答案作为伪标签 ŷ。

第三步：计算奖励。 对每个候选答案，如果与伪标签一致则奖励为 1，否则为 0。这就是论文中的 majority voting reward function。

第四步：RL 训练。 使用 GRPO 算法，基于上述奖励信号更新模型参数。论文采用了"先投票再采样"的策略——从 64 个回答中选 32 个用于训练，有效降低了计算开销。

第五步：迭代。 在多个 epoch 上重复上述过程。随着模型变强，投票的准确率也会提高，形成正向循环。

关键结论：TTRL 的奖励信号是"自举"的——模型用自己的集体智慧来指导自己的学习。

实验结果：全面且令人信服

论文在 4 个基准测试上验证了 TTRL 的效果：AIME 2024（数学竞赛）、AMC（数学竞赛）、MATH-500（数学推理）和 GPQA-Diamond（研究生级别问答）。

核心发现一：TTRL 在各种模型上都有效

论文测试了 6 个模型家族、涵盖 base 模型和 instruct 模型：

Qwen2.5-Math-1.5B：AIME 2024 上从 7.7 提升到 15.8（+105%）
Qwen2.5-Math-7B：AIME 2024 上从 12.9 提升到 40.2（+211%）
Qwen2.5-32B：AIME 2024 上从 7.9 提升到 24.0（+204%）
LLaMA-3.1-8B：AIME 2024 上从 4.6 提升到 10.0（+117%）

四个基准的平均提升达到 76%。

TTRL 在各任务上的主要结果

核心发现二：对已经很强的推理模型依然有效

你可能会想：TTRL 对 base 模型有效不奇怪，但对已经经过大量后训练的推理模型呢？

论文测试了 Skywork-OR1-Math-7B 和 Qwen3-8B 这两个强推理模型。结果显示，TTRL 仍然能带来约 10 个百分点的提升。这说明 TTRL 的收益与后训练阶段的优化是互补的。

TTRL 在 LRM 上的表现

核心发现三：泛化能力出色

一个关键问题是：在某个测试集上做 TTRL，会不会导致过拟合？

论文做了一个漂亮的实验：在一个基准上训练 TTRL，然后在其他基准上评估。结果表明，TTRL 不仅在训练基准上提升显著，在未见过的基准上也有明显提升。例如，在 AIME 2024 上训练后，AMC 和 MATH-500 的性能也同步提高。

这说明 TTRL 学到的不是"答案记忆"，而是更通用的推理能力。

TTRL 的跨分布泛化表现

核心发现四：与不同 RL 算法兼容

TTRL 并不绑定于某个特定的 RL 算法。论文测试了 GRPO、PPO 和 PRIME 三种算法，发现它们在 TTRL 框架下的表现轨迹高度一致，说明 TTRL 的有效性来自于框架本身，而非某个特定算法的特性。

不同 RL 算法在 TTRL 下的对比

为什么 TTRL 能 work？

这可能是整篇论文最引人深思的部分。论文从三个角度分析了 TTRL 的有效性：

1. 带噪声的伪标签为什么够用？

多数投票的伪标签不可能 100% 正确，但论文指出两个关键原因：

已有研究表明，RL 对奖励噪声有一定的鲁棒性，即使奖励信号不完美，模型仍能学到有用的策略
随着训练进行，模型变强 → 投票更准 → 奖励更准 → 模型更强，形成自增强的正反馈循环

2. 训练动态揭示了"自举"效应

论文追踪了训练过程中 pass@1 和 maj@16 两个指标的变化。一个惊人的发现是：TTRL 训练后的模型，其 avg@16 分数超过了初始模型的 maj@16 分数超过 20 个百分点。

这意味着什么？模型不仅学会了"跟随多数"，还真正提升了自身的推理能力，超越了投票本身能达到的上限。

一句话理解：模型"拽着自己的鞋带把自己提了起来"（lifts itself up by its own bootstraps）。

TTRL 在 AMC 上的训练动态

3. 接近"开卷考试"的性能

论文设计了一个极端对照实验：直接用测试集的真实标签做 RL（即"信息泄露"场景）。结果发现，TTRL 的性能曲线与这个理论上限惊人地接近。

这说明 TTRL 在无监督设置下，几乎达到了有监督 RL 的效率。

TTRL 与 RL (Leakage) 的对比

TTRL 在哪些情况下可能失效？

论文也坦诚地讨论了 TTRL 的局限性：

1. 当模型初始能力太弱时。 TTRL 依赖多数投票来估计伪标签，如果模型本身对某类问题的正确率极低，投票结果就会被错误答案主导。论文发现，当初始 maj@N 准确率低于某个阈值时，TTRL 的提升会大幅缩水甚至失效。

2. 当任务是开放式生成时。 TTRL 目前主要在有确定性答案的任务（数学、选择题）上验证。对于创意写作、开放式问答等没有唯一正确答案的任务，多数投票的语义就不太明确了。

3. 数据规模的限制。 论文的实验主要在几百道题的规模上进行。当测试集非常小时，投票的统计可靠性会下降；而如何高效地扩展到大规模无标签数据，仍是一个开放问题。

4. 奖励函数的局限。 当前的 majority voting reward 是二值的（0 或 1），无法提供细粒度的反馈。论文提到，探索更精细的奖励设计（如基于置信度的软奖励）是未来的重要方向。

这对 LLM 训练的未来意味着什么？

TTRL 的意义远不止于一个技术方法的创新，它指向了一个更深远的方向：

模型的持续自我进化。 传统的训练范式是"训练一次，部署使用"。TTRL 打开了一扇门——模型在部署后，面对新的、无标签的数据时，仍然可以继续学习和进化。这与 Silver & Sutton 提出的"经验时代"（era of experience）的愿景高度契合。

降低对人类标注的依赖。 随着任务复杂度的提升，高质量标注的成本呈指数增长。TTRL 表明，在特定条件下，模型可以通过自身的集体智慧来替代人类标注，这对于扩展 RL 训练的规模具有重要意义。

测试时计算的新范式。 TTRL 将测试时缩放（TTS）从"只做推理"扩展到了"边推理边学习"，为测试时计算开辟了新的可能性。

Gemini_Generated_Image_2a4r9q2a4r9q2a4r

写在最后

TTRL 用一个简洁而优雅的思路，回答了一个看似不可能的问题：没有标准答案，模型也能通过强化学习变强。

多数投票——这个在推理阶段被广泛使用的"老技巧"——被赋予了全新的角色：不再只是提升推理准确率的工具，而是成为了驱动模型自我进化的奖励信号。更令人惊讶的是，模型通过这种"自举"式的学习，不仅达到了投票本身的性能上限，还成功超越了它。

当然，TTRL 目前还有明确的适用边界——它更适合有确定性答案的任务，且依赖模型具备一定的初始能力。但它所揭示的可能性是激动人心的：在一个标注数据日益稀缺、而无标签数据无处不在的世界里，让模型学会"自己教自己"，或许是通向更强 AI 的必经之路。

论文链接：github.com/PRIME-RL/TT…

更多资源获取欢迎关注我的公众号：「木子吉星」

公众号二维码.jpg