倒反天罡了,新方法让 DeepSeek 蒸馏的 Qwen 数学能力反超 R1 满血版,7B 反超 671B。
除此之外,0.5B 模型超过 GPT-4o,1.5B 的 DeepSeek 蒸馏 Qwen 超过 o1-mini 和 o1-preview,3B 的 Llama 超过 405B 的 Llama……
这是上海 AI Lab / 清华哈工大 / 北邮团队最新研究成果,通讯作者为齐弼卿和周伯文:
重新思考计算最优的 Test-Time Scaling(TTS)
团队认为,尽管 TTS 在提升语言模型推理能力上取得进展,但目前的研究还缺乏对策略模型、过程奖励模型 (PRM) 和问题难度等因素影响的系统分析。
因此,该研究聚焦两个核心问题:
-
跨不同策略模型、PRM 和问题难度,最优的 TTS 方式是什么?
-
TTS 能在多大程度上提升语言模型在复杂任务上的表现?小模型能否超越大模型?
重新思考 Test-Time Scaling
为探究这些问题,团队在 MATH-500 和 AIME24 数学推理数据集上,使用多个不同规模的策略模型和 PRM,进行了全面的实验评估。
他们将推理问题建模为马尔可夫决策过程,定义了状态空间、动作空间、转移函数、奖励函数和折扣因子等元素。
对于 TTS,考虑了 Best-of-N、Beam Search 和 Diverse Verifier Tree Search(DVTS)三种方法。
实验发现,最优的 TTS 方法高度依赖于具体的策略模型、过程奖励模型(PRM)和问题难度。
对于小型策略模型,基于搜索的方法优于 BoN,而对于大型策略模型相反。
团队认为之所以出现这种差异,是因为较大的模型具有更强的推理能力,并且不需要验证器来执行逐步选择。相比之下,较小的模型依靠验证器来选择每个步骤,确保每个中间步骤的正确性。
对于过程奖励模型,对 Llama3.1-8B-Instruct 使用 Skywork 和 Qwen2.5-Math 的 PRM 时效果拔群,在 MATH-500 数据集上搜索方法的性能随计算预算增加显著提升。
而使用 Math-Shepherd 和 RLHFlow 的 PRMs 时效果不佳甚至不如多数投票。
对于问题难度,参数少于 7B 的小型策略模型,BoN 更适合于简单的问题,而 Beam Search 更适合于更难的问题。
参数在 7B-32B 的策略模型,DVTS 在简单和中等问题上表现良好,而 Beam Search 对于困难问题更有效。
另外在 72B 参数的策略模型上,BoN 是所有难度级别的最佳方法。
因此,团队提出了一个更通用的奖励感知型最优计算 TTS 框架,确保 TTS 计算能适应特定的策略模型、提示和奖励函数。
利用奖励感知型最优 TTS 框架,在 MATH-500 和 AIME24 上取得了如下结果:
3B 的 Llama3.2 超越 135 倍大的 Llama3.1-405B,与之前的 TTS 研究(超越 23 倍大的模型)相比,改善了 487%。
DeepSeek-R1-Distill-Qwen-7B 超过了 OpenAI-o1(参数量未知)和 DeepSeek-R1(671B)。
甚至 0.5B 和 1.5B 的小模型也展现出了与 GPT-4o、o1-preview 等专门的推理模型媲美的表现。
研究还比较了最优 TTS 和目前流行的基于长 CoT 的方法。
结果表明,TTS 在 MATH-500 和 AIME2024 上优于多数长 CoT 方法。
然而,虽然 TTS 在 MATH-500 上的性能接近 DeepSeek-R1-Distill-Qwen-7B,但在 AIME24 上却显示出显著的下降。
这说明 TTS 在相对简单任务上优势明显,但在更复杂的任务上则逊色于从超大规模模型蒸馏得到模型,还有提升空间。
最后,团队提出研究真正的 “从弱到强” 方法而不是当前 “从强到弱” 的策略优化监督机制的重要性。
未来的工作应侧重于开发更具适应性和通用性的监督机制,以提高小语言模型在复杂任务上的性能,并为开发有效的推理策略提供新方法。
目前的工作对数学任务上的 TTS 做了全面评估,但仍有一些局限性和未来方向需要探索:比如将 TTS 扩展到更多任务,例如代码和化学,以及探索更高效的计算最优 TTS 方法。
论文地址:
arxiv.org/abs/2502.06…
— 完 —