对于自然语言处理的问题是很难构建reward
以前的大模型pre-training和post-training占了大多数,现在的o1有了更多的推理比重
openR开源了源代码
通过rl去达成test-time compute (scaling law)
理论上,CoT能解决所有的问题
LLM:generator容易,但是verifier很难,
rl和llm特性是反的
LLM技术提升的核心在verifier
prm如果很弱,我们其实没法抽取有效的数据,标错了的数据还能不能让LLM正常的学习
这篇文章说明基于错例的学习是可行的
目标就是复现这张图
通过搜索来提升模型在decoder阶段取得的效果
future work
shot-cut learning,所以generator和self-varifier需要同步更新
阅读笔记:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
本文探讨了在大规模语言模型(LLMs)中,通过优化测试时计算(test-time compute)来提升模型性能是否比单纯扩大模型参数更为有效。研究重点在于如何在固定的测试时计算预算下,最大化模型在复杂任务上的表现改进。
研究问题
- 核心问题:在固定但非零的测试时计算预算下,LLM能在多大程度上通过额外的推理计算来提升对复杂提示的响应准确性?
- 研究意义:理解测试时计算的扩展行为不仅影响LLM的性能潜力,还关系到未来LLM预训练策略中推理时与预训练时计算资源的权衡。
方法论
统一视角:
-
- 将额外的测试时计算视为在给定提示下动态调整模型预测分布的过程。
- 主要通过两种机制扩展测试时计算:
-
-
- 基于验证器的搜索:利用密集的过程型验证器奖励模型(Process-based Verifier Reward Models, PRMs)进行搜索。
- 自适应调整响应分布:根据测试时提示,动态更新模型的响应分布。
-
计算优化策略(Compute-Optimal Scaling Strategy) :
-
- 根据问题的难易程度,动态分配测试时计算资源,优化计算利用效率。
- 利用模型预测的难度等级来选择最合适的测试时计算策略。
- Best-of-N Weighted:独立生成多个完整答案,然后根据最终评分选择最佳答案。简单高效,但在复杂问题上效率较低。
- Beam Search:逐步生成答案,在每一步保留多个高分候选,设定固定数量的束(beams)数N和每束的宽度M。生成N个初步预测步骤。使用PRM对每个步骤进行评分,基于预测的步骤奖励(reward-to-go)。通过多轮迭代优化答案质量。相比Best-of-N更有效地探索解空间,但计算复杂度更高。
- Lookahead Search:在Beam Search基础上增加前瞻步骤,在每一步,除了当前步骤的评分外,还模拟接下来的k步生成,使用PRM在模拟生成结束时的评分来评估当前步骤。通过模拟未来几步来评估当前选择。提高了评估准确性,但显著增加了计算开销。
比较不同的PRM搜索方法
图示说明:
- 左侧图展示了不同搜索方法在不同生成预算(Generation Budget)下的数学测试准确率(MATH Test Accuracy %)。
- 比较的方法包括:
-
- Best-of-N Weighted:独立采样N个答案,选择PRM评分最高的答案。
- Majority:多数投票选择答案。
- Beam Search,M=√N:束宽设置为生成预算的平方根。
- Beam Search,M=4:束宽固定为4。
- 1-Step Lookahead Search,M=√N。
- 3-Step Lookahead Search,M=√N。
- 3-Step Lookahead Search,M=4。
分析描述:
在较低的生成预算下,Beam Search方法显著优于Best-of-N Weighted方法,显示出其在有限计算资源下的高效性。然而,随着生成预算的增加,Beam Search的优势逐渐减弱,甚至在较高预算下表现低于Best-of-N基线。此外,Lookahead Search方法在相同生成预算下整体表现不及Beam Search和Best-of-N,可能是因为前瞻步骤引入了额外的计算开销,且PRM的预测可能被过度利用,导致解决方案中出现低信息量的重复步骤或过于简短的解答。
整体来看,Beam Search在低计算预算下表现优越,但在高预算下其优势减弱,而Lookahead Search在所有预算下表现相对较弱。
《OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models》 (OpenR-Wang.pdf)
主要方法:
- 框架整合:
-
- 数据采集:通过自动生成合成样本(如MATH-APS数据集),减少对昂贵的人类标注的依赖。
- 强化学习训练:采用Proximal Policy Optimization (PPO) 和 Group Relative Policy Optimization (GRPO) 等强化学习算法,优化模型的推理策略。
- 非自回归解码:结合Best-of-N采样和束搜索(Beam Search),通过过程奖励模型(PRM)指导搜索过程,提升推理质量。
- 过程奖励模型(PRM) :
-
- PRM用于对每个推理步骤进行评分,提供细粒度的反馈,帮助模型识别并修正推理过程中的错误。
- PRM的训练采用监督微调(Supervised Fine-Tuning),利用合成数据和自动标注的方法生成训练样本。
- 解码策略:
-
- Best-of-N采样:并行生成N个不同解答,通过PRM选择评分最高的解答。
- 束搜索(Beam Search) :逐步生成并筛选候选解答,保留PRM评分最高的N/m个输出,重复此过程以扩展搜索空间。
- 实验评估:
-
- 在MATH500数据集上,OpenR通过过程奖励模型和指导性搜索,实现了约10%的推理准确性提升。
特点与贡献:
- 开源平台:提供代码、模型和数据集,促进社区合作,加速LLM推理研究的发展。
- 多组件整合:结合数据增强、强化学习、PRM和高级搜索算法,全面提升LLM的推理能力。
- 过程监督与策略优化:PRM和强化学习方法相互作用,持续优化模型的推理路径,提升整体推理效果。
《AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training》 (2309.17179v2.pdf)
主要方法:
- AlphaZero-like 树搜索框架(TS-LLM) :
-
- 学习的价值函数:引入一个学习的价值函数,替代依赖于预训练模型的提示式价值评估。
- 树搜索算法:采用类似于AlphaZero中的蒙特卡罗树搜索(MCTS)方法,指导LLM在推理过程中的决策。
- 深度树搜索:支持更深的树搜索(如深度64),突破了之前方法在搜索深度上的限制。
- 引导推理与训练:
-
- 推理引导:在推理过程中利用树搜索找到更优的推理路径,提升LLM在复杂任务上的表现。
- 训练引导:利用树搜索生成的高质量轨迹,进行策略蒸馏(Policy Distillation)和价值函数学习,迭代优化LLM本身。
- 多种树搜索算法对比:
-
- 比较了传统的BFS/DFS搜索、经典MCTS以及AlphaZero-like的MCTS-α和MCTS-Rollout算法。
- 实验表明,AlphaZero-like算法在深度搜索任务(如RLHF和象棋残局)中显著优于其他方法。
- 实验评估:
-
- 在多个推理、规划、对齐和决策任务上,TS-LLM展示出比现有方法更好的性能,尤其在需要长远规划的任务上。
- 证明了学习的价值函数比基于提示的评价更可靠,提升了树搜索的效果。
特点与贡献:
- 通用和可扩展:适用于各种任务和不同规模的LLM,利用学习的价值函数替代提示式方法,提升了通用性和可靠性。
- AlphaZero-like 搜索与训练:通过树搜索生成高质量的生成轨迹,用于训练和蒸馏模型,形成自我改进的闭环。
OpenR中的PRM与AlphaZero树搜索的关系
PRM在OpenR中的作用:
- **过程奖励模型(PRM)**在OpenR框架中用于实时评估每个推理步骤的质量,提供细粒度的奖励信号,指导LLM生成更准确和有意义的推理路径。
- PRM通过强化学习算法(如PPO、GRPO)优化LLM的策略,使其在生成答案时能够逐步修正和改进。
AlphaZero树搜索的特点:
- 蒙特卡罗树搜索(MCTS) :AlphaZero采用MCTS作为核心决策机制,通过模拟未来可能的步骤,评估每个动作的潜在价值,选择最优策略。
- 价值函数与策略网络:AlphaZero使用学习到的价值函数来评估节点,策略网络指导树搜索的扩展方向,形成一个闭环的自我优化过程。
两者的关系与相似性:
- 相似性:
-
- 都依赖于价值函数来评估和指导决策过程。
- 都通过树搜索探索多条可能的推理路径,以找到最优解答。
- 反馈机制:在AlphaZero中,树搜索结果用于训练策略和价值网络;在OpenR中,PRM评分用于指导LLM生成更优答案。
- 差异性:
-
- 应用领域:AlphaZero主要应用于策略游戏等决策优化任务,而OpenR聚焦于自然语言推理和生成任务。
- 树搜索深度:AlphaZero在游戏中可能需要更深入的搜索(如深度64),而OpenR的树搜索相对更专注于推理步骤的优化。
- 价值函数训练:AlphaZero的价值函数通过自身的游戏对弈数据不断优化,而OpenR的PRM通过数据增强和自动标注的推理步骤训练得到。