文章地址:arxiv.org/abs/2502.21… github地址:github.com/mbzuai-oryx…
一、Introduction
1. 优点与缺点
首先肯定了大型语言模型(LLMs)在自然语言处理(NLP)领域的广泛应用:
- 文本生成(如GPT系列、Gemini等)
- 问答系统(如ChatGPT、Claude)
- 多步推理(如Chain-of-Thought提示)
- 多模态交互(如LLaVA、Video-LLM)
LLMs仍存在以下关键问题:
- 幻觉(Hallucination):生成看似合理但事实错误的文本。
- 逻辑不一致性:在长文本生成中难以维持连贯性。
- 对齐(Alignment)问题:模型行为可能偏离人类价值观或任务需求。
- 推理能力的争议:LLMs的“推理”本质上是统计模式匹配,而非真正的符号逻辑推理。
2. 后训练方法
大模型训练步骤分为预训练(pre-training)和后训练(post-training)
后训练的方法有三:
-
微调(Fine-tuning)
- 在特定任务数据上进一步训练模型
- 特点:监督训练
- 缺点:过拟合、高计算成本。对数据偏差敏感
-
强化学习(Reinforcement Learning, RL)
-
通过人类反馈(RLHF)或AI反馈(RLAIF)优化模型行为
-
LLM中的强化学习与传统的不同
维度 传统RL LLMs的RL 动作空间 低维、离散、有限 高维、离散(词汇量级)、动态 状态表示 结构化、固定 非结构化、动态文本序列 奖励信号 密集、客观、明确 稀疏、主观、延迟、多目标冲突 优化目标 单一目标 多目标平衡(相关性、安全性等) 解决方案 标准RL算法(如Q学习) 混合奖励、RLHF、策略梯度优化
-
-
Test-time Scaling
- 在推理阶段动态调整模型行为(如Beam Search、Self-Consistency)
- 缺点:计算开销大,需平衡效率与效果
二、RL
1. 将RL整合到LLM中的核心步骤:
-
监督微调
- 从预训练语言模型开始,在包含高质量、人工制作的示例样本的监督数据集上,对模型进行微调。此阶段可确保模型获得符合格式和样式的基线。
-
奖励模型训练
- 收集微调模型生成的输出并进行人工偏好标注。然后对奖励模型进行训练以复现这些基于标签的分数或排名,从而有效地学习将响应文本映射到标量值的连续奖励函数。
-
强化学习微调
- 最后,通过策略梯度算法(例如 PPO)优化主语言模型,以最大化奖励模型的输出。通过迭代此循环,LLM 可学习在准确性、有用性和风格连贯性等关键维度上生成人类更偏好的响应。
- 使用梯度策略算法,例如PPO(Proximal Policy Optimization)算法
-
奖励建模与对齐
- 开发复杂的奖励函数(借鉴人类偏好、对抗性反馈或自动化指标)以引导模型获得连贯、安全且适配上下文的输出。为了在多步推理过程中有效分配 credit,这些奖励至关重要。
2. 以前的RL算法和现在的RL算法
- 以前的:PPO,TRPO
- 优化目标:通过最大化预期累积奖励来更新策略模型。
- 约束条件:使用代理目标函数(Surrogate Objective)和KL散度正则化[161]限制策略更新幅度,防止模型偏离初始策略过远。
- 依赖组件:需显式训练奖励模型(Reward Model)和价值评估网络(Critic Network),导致计算复杂度高且标注成本大。
- 改进的:新一代方法通过重构优化目标实现高效对齐
- 直接偏好优化,DPO
- 组相对策略优化,GRPO
3. 奖励建模,Reward modeling
流程:
- 输入数据:用户提问(Query)集合 X,例如“请解释量子力学”。
- 响应生成:对每个提问 x∈X,生成多个候选回答 {y1,y2,...,ymx},通常由不同策略(如温度采样、Top-p采样)的语言模型生成。
- 人工标注:标注员为候选回答提供偏好标签,形式包括:
- 成对偏好(Pairwise):标注 yi≻yj(回答i优于j)。
- 全/偏序排名(Rankings):标注完整或部分排序(如 y1≻y2≻y3)。
分类:
- 显式奖励建模
- 需要人类标注
- 隐式奖励建模
- 适用于是互联网推荐系统,不需人类标注,而是使用点赞、收藏等行为间接标注
- 结果奖励建模
- credit分配问题(credit assignment problem),不知道哪一步导致了奖励结果
- 过程奖励建模
- 需要推理步骤、partial credit scoring
- 具有自适应奖励模型的迭代 RL,“Iterative RL with Adaptive Reward Models” (Kumar 等, 2025, p. 7)
- RL 过程分为多次迭代,其中模型按周期进行训练。每次迭代后,奖励模型都会根据最新的模型行为和人工反馈进行更新。
- 奖励模型不是静态的,而是随着时间的推移而演变,以更好地符合人类的偏好和任务要求。
- 解决了奖励黑客攻击和奖励模型漂移的挑战
4. 策略优化,Policy Optimization
- 胜算比偏好优化,ORPO
- 更新策略以增加相对于不喜欢的响应(根据人类标签)的首选响应的可能性,查看比值:
- 在组合多个奖励信号方面不太灵活
- LLM 中的近端策略优化,PPO
- 通过优化平衡探索和稳定性的裁剪目标来更新策略,KL惩罚确保策略保持基本模型的语言连贯性并避免退化输出。
- 基于人类反馈的强化学习,RLHF
- 通过直接的人类偏好信号来改进 LLM
- 基于 AI 反馈的强化学习,RLAIF
- 用AI(如另一个LLM)替代人类标注偏好数据
- 降低人工成本,是未来发展方向
- 信任区域策略优化,TRPO
- 直接偏好优化,DPO
- 不是学习单独的奖励函数,然后运行策略梯度更新,而是直接将人类偏好信号集成到模型的训练目标中
- 简单,计算高效
- 离线推理优化,OREO
- 使用基于最终结果(例如推理链的正确性)的稀疏奖励,并联合训练策略模型 πθ 和价值函数 Vφ 进行细粒度的信用分配
- 组相对策略优化,GRPO
- 组内归一化奖励替代Critic,多样本生成优化
- 减少计算开销,适合复杂推理任务
- 需要生成多个样本,推理成本高
- 多样本比较优化
PPO,FRPO,DPO的之间比较如下图:
5. 基于纯强化学习的 LLM 微调,Pure RL Based LLM Refinement
Guo et al. (2025) [40] 的研究介绍了两个主要模型:DeepSeek-R1-Zero 和 DeepSeek-R1:
-
DeepSeek-R1-Zero 采用纯强化学习方法运行,不包括任何 SFT。
-
DeepSeek-R1 整合了冷启动数据,并应用了多阶段训练管道。
该方法包括几个步骤(主要步骤见 GRPO 中的图 2):
- 冷启动 RL 阶段,Cold-Start RL Phase
- 在该阶段收集少量精选数据以微调初始模型或基本模型。在初步微调之后,通常通过 GRPO 等算法进行 RL,直到收敛。
- 拒绝采样和微调,Rejection Sampling and Fine-tuning
- 拒绝采样可确保仅将高质量的输出用于进一步训练,从而提高模型的整体性能和可靠性。
- 面向推理的 RL,Reasoning-Oriented RL
- 利用 GRPO [59],它从当前策略中对一组输出进行采样,并计算每个输出的奖励和优势。
- 用于人类对齐的第二个 RL 阶段,Second RL Stage for Human Alignment
- 第二个 RL 阶段通过引入额外的奖励信号和及时分配,进一步使模型与更广泛的人类偏好(帮助、无害、创造力等)保持一致。
- 蒸馏到较小的模型,Distillation for Smaller Models
- 使用较小的模型继承高级推理能力,无需全面 RL 训练的计算成本。
三、SFT in LLMs
1. 分类
-
指令微调,Instruction finetuning
- 模型根据精选的指令 (提示) 和响应 (完成) 对进行训练。
- 主要目标是指导 LLM 准确且有用地遵循用户提供的指令,而不管任务域如何。
-
对话微调,Dialogue (Multi-turn) Finetuning
- 一些 LLM 会进行对话式微调,以更好地处理多轮次对话。
-
思维链微调,CoT Reasoning finetuning
- 训练模型生成逐步推理过程(如数学解题步骤),而非直接输出答案
-
领域专用微调,Domain-Specific (Specialized) Finetuning
-
蒸馏微调,Distillation-Based Finetuning
- 将大模型(教师)的能力迁移到小模型(学生)
-
偏好对齐微调,Preference and Alignment SFT
-
高效微调,Efficient Finetuning
-
LoRA:注入低秩适配器,仅训练少量参数
-
QLoRA:结合4位量化,降低显存需求
-
Adapter:插入小型网络模块,冻结主干参数
-
四、test-time scaling
在推理阶段(即模型部署后) 动态调整计算资源或搜索策略。
1. 一些方法
-
束搜索,Beam Search
- 维护多个候选序列(束宽N),每步扩展并保留最高概率的路径,逐步剪枝低概率分支。
-
最佳N采样,Best-of-N Sampling
- 生成N个候选答案,通过奖励模型或概率筛选最佳结果。
-
计算最优扩展,Compute-Optimal Scaling
- 动态分配计算资源,简单问题顺序修正,复杂问题并行搜索。
-
思维链提示,Chain-of-Thought (CoT) Prompting
- CoT 提示会促使 LLM将问题分解为逻辑子步骤,产生中间推理步骤,而不是直接跳到最终答案。
- 在算术和逻辑任务上有效
-
自洽解码,Self-Consistency Decoding
- 生成多个不同推理路径,投票选择最一致的答案。
- 适合答案唯一但路径多样的任务(如算术题)。
-
思维树,Tree-of-Thoughts (ToT)
- 允许模型分支为多个可能的思维序列,而不是遵循单个线性链,概括了思维链方法。
-
思维图,Graph of Thoughts (GoT)
- 基于图的结构而不是严格的分层树允许更灵活和高效的推理过程来扩展 ToT。
-
基于置信度的采样,Confidence-based Sampling
- 在基于置信度的抽样中,语言模型生成多个候选解决方案或推理路径,然后根据模型自身对每个结果的置信度确定优先级或从中选择
- 通过两种方式发生
- 选择
- 引导式探索
-
针对验证程序搜索,Search Against Verifiers
- 生成候选答案,用奖励模型(ORM/PRM)验证最优解。
- 两个步骤
- 生成
- 验证
- 结果奖励模型(ORM)
- 流程奖励模型(PRM)
-
自优化迭代,Self-Improvement via Refinement
- 迭代生成-批判-修正循环,模型自我优化输出。
-
蒙特卡洛树搜索,Monte Carlo Tree Search (MCTS)
- 模拟随机路径,评估潜在结果,选择高回报分支。
- 方法
- 根据启发式方法(如 UCT [256])从根中选择一条路径
- 从该路径的末尾扩展一个新节点(以前未访问的状态)
- 模拟从该新状态随机推出以获得结果(例如,游戏中的赢或输, 或一些奖励)
- 将结果反向传播到树中以更新节点的值并通知未来的选择
-
行动链思维推理,Chain-of-Action-Thought reasoning
-
预训练与测试时缩放,Pretraining vs. Test-Time Scaling
- 预训练:适合学习新能力(如多语言支持),但成本高昂。
- 测试时扩展:节省训练资源,依赖基础模型能力,适合已有任务优化。
五、评估标准
1. 五个基准
- 推理类基准(Reasoning Benchmarks)
- 强化学习对齐基准(RL Alignment Benchmarks)
- 多语言评估(Multilingual Evaluation)
- 英语等150多种语言
- 通用理解基准(General Comprehension Benchmarks)
- 对话与搜索基准(Dialogue & Search Benchmarks)