大模型推理新范式：ExGRPO 如何让 AI 从 "盲目刷题" 进化到 "聪明复盘"当我们抱怨大模型做数学题时 "步骤混

大模型推理新范式：ExGRPO 如何让 AI 从 "盲目刷题" 进化到 "聪明复盘"

大家好，我是AI算法工程师七月，曾在华为、阿里任职，技术栈广泛，爱好广泛，喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。

关注公众号：智启七月，获取最新观察、思考和文章推送。
关注知乎：七月，获取最新观察、思考和文章推送。
关注CSDN：智启七月，获取最新观察、思考和文章推送。
关注稀土掘金：智启七月，获取最新观察、思考和文章推送。
网站1 ：七月
网站2：zerodesk

我会在这里分享关于编程技术、独立开发、行业资讯，思考感悟等内容。爱好交友，想加群滴滴我，wx：swk15688532358，交流分享

如果本文能给你提供启发或帮助，欢迎动动小手指，一键三连 (点赞、评论、转发)，给我一些支持和鼓励，谢谢。

作者：七月链接：julyblog 来源：七月著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

ExGRP发布

当我们抱怨大模型做数学题时 "步骤混乱"、解逻辑题时 "漏洞百出"，本质上是在吐槽一种低效的学习模式 —— 就像学生闷头刷海量习题却从不复盘，既浪费精力又难有突破。直到 ExGRPO（基于经验分组的相对策略优化，Experiential Group Relative Policy Optimization）框架的出现，大模型推理训练终于迎来了 "从盲目刷题到聪明复盘" 的范式革命。

这种由上海人工智能实验室、澳门大学等机构联合提出的新技术，核心是给大模型装上了一套 "智能错题本 + 科学复习计划"，让模型学会筛选有价值的经验、高效复用优质思路。本文将从传统方法的痛点切入，层层拆解 ExGRPO 的技术原理，揭开 AI"越学越聪明" 的秘密。

老规矩先放传送门

论文： arxiv.org/pdf/2510.02…

Code： github.com/ElliottYan/…

模型： huggingface.co/collections…

一、传统推理训练的困局：为何 AI 刷题越多越迷茫？

要理解 ExGRPO 的革新性，首先得看清传统大模型推理训练的三大核心痛点 —— 这正是 "盲目刷题" 模式的典型病症。

1. 经验的 "一次性浪费"

目前主流的强化学习从可验证奖励（RLVR）方法采用 "在线刷题" 模式：模型生成解题轨迹、获得奖励反馈、更新参数后，这条轨迹就被直接丢弃，如同做完题就撕掉试卷。上海 AI 实验室的实验显示，在数学推理任务中，约 60% 的高价值解题轨迹（逻辑清晰且能复用于同类问题）会因这种模式彻底流失。

更可惜的是，这些流失的经验中，有大量处于模型 "最近发展区" 的关键案例 —— 既不是随手就能做对的简单题，也不是完全无从下手的难题。就像学生刚掌握一元二次方程时，那些需要结合因式分解与判别式的中档题，恰恰是能力跃迁的关键，却被传统方法 "做过就丢"。

2. 奖励信号的 "噪音污染"

传统 RLVR 依赖奖励模型对解题结果打分，但这种 "绝对评分" 存在严重缺陷：要么因奖励尺度混乱导致信号失真，要么因轨迹质量误判让模型学坏。

比如有些解题轨迹虽然答案正确，但推理过程充满随机性（俗称 "蒙对的"），其奖励分却与逻辑严谨的轨迹相同。模型反复学习这类 "伪优质" 轨迹后，会形成 "靠运气而非逻辑" 的解题习惯，出现 "越训练越不稳定" 的怪象。DeepSeek 团队的实验就发现，这种 "噪音轨迹" 会使 MATH 数据集准确率下降 4-6 个百分点。

3. 训练资源的 "低效空转"

传统方法中，模型约 30% 的算力消耗在两类无意义的学习上：一是反复刷已经掌握的简单题（正确率超 75%），收益趋近于零；二是死磕远超当前能力的难题（正确率低于 25%），导致模型因频繁失败而 "习得性无助"，甚至产生乱猜答案的坏习惯。

更棘手的是，当模型能力较弱（如 1.5B 小模型）或较强（如 8B 基础模型）时，传统 RLVR 还会因奖励信号不足或策略波动过大而训练崩溃。Llama-3.1 8B 的实验就证明，标准 RLVR 在此模型上会因 "奖励饥荒" 彻底失效，而 ExGRPO 却能稳定收敛。

二、ExGRPO 的核心洞察：什么样的经验才值得 "复盘"？

ExGRPO 的突破始于两个关键发现 —— 就像优秀教师懂得 "挑题" 和 "辨方法"，这套框架先搞清楚了：对大模型而言，哪些题该重点练，以及哪些解题思路值得学。

1. 难度分层：只抓 "踮脚够得着" 的题

研究团队将训练题按模型在线正确率分为三类，通过对比实验发现了惊人规律：

简单题（正确率＞75%）：训练收益随次数增加快速衰减，重复训练 10 轮后几乎无提升；
困难题（正确率＜25%）：模型无法从失败中提取有效信息，反而导致推理熵值上升 12%；
中等题（正确率 25%-75%）：训练收益最高，单轮训练能使测试准确率提升 2.1 个百分点。

添加图片注释，不超过 140 字（可选）

这印证了教育学中的 "最近发展区" 理论：最有效的学习发生在 "已有能力" 与 "潜在能力" 的交界处。ExGRPO 正是抓住这一点，将中等难度题定为 "复盘核心素材"。

2. 轨迹筛选：用 "熵" 判断推理质量

为解决 "蒙对的题误导模型" 的问题，团队引入了 "轨迹熵" 这一关键指标 —— 熵值越低，说明推理步骤越确定、逻辑越连贯；熵值越高，说明轨迹充满随机性、逻辑越松散。

添加图片注释，不超过 140 字（可选）

实验显示，低熵轨迹（平均 token 熵＜1.2）的复现价值是高熵轨迹（平均 token 熵＞2.0）的 3 倍：用低熵轨迹训练的模型，在 GPQA 通用推理数据集上准确率提升 7.6%；而用高熵轨迹训练的模型，准确率反而下降 2.3%。

这个发现彻底改变了 "唯答案论" 的评价标准：ExGRPO 认为，逻辑严谨的错误轨迹，比随机蒙对的正确轨迹更有学习价值。

三、ExGRPO 技术拆解：一套 "聪明复盘" 的完整流程

基于上述洞察，ExGRPO 构建了 "经验管理 + 策略优化" 两大核心模块，形成了从 "收集经验" 到 "高效复用" 的闭环。这套流程就像给模型配备了一位 "私人助教"，负责整理错题本、制定复习计划、监督复习质量。

模块一：AI 的 "智能错题本"

传统方法的经验是 "流动的溪水"，用过即走；ExGRPO 的经验是 "沉淀的水库"，分类存储、动态更新。这个系统分为三步运作：

添加图片注释，不超过 140 字（可选）

1. 经验收集：只存 "成功且可信" 的轨迹

首先构建一个经验回放缓冲区，专门收集模型训练中产生的 "成功轨迹"—— 既包括答案正确的轨迹，也包括逻辑严谨（低熵）的错误轨迹。每条经验都包含 "问题描述 + 推理步骤 + 奖励分数 + 轨迹熵值" 四要素，确保信息完整。

为避免初期收集低质量经验，ExGRPO 还设计了延迟启动机制：前 5 轮训练仅运行标准 RLVR，待模型在验证集准确率突破 30%（具备基础解题能力）后，才激活经验回放功能。这就像不让小学生直接做奥数题，先打基础再练难题。

添加图片注释，不超过 140 字（可选）

2. 动态分区：给经验 "贴标签、分等级"

缓冲区中的经验会按 "问题难度" 动态分区，形成三个核心集合：

活跃集合 1（中等难度）：正确率 25%-75% 的问题对应的经验，作为优先复习区；
活跃集合 2（困难难度）：正确率＜25% 的问题对应的经验，按 10% 比例抽样复习；
退休集合（简单难度）：正确率＞75% 的问题对应的经验，暂时移出缓冲区，仅每周复查一次。

这种分区不是固定不变的：每当模型对某类问题的正确率提升，对应的经验会自动迁移到更高等级的集合。比如某道题从 "困难" 变为 "中等" 后，会立即进入优先复习区，确保资源始终向高价值经验倾斜。

3. 优先级采样：挑出 "最该复习的经验"

每次训练前，系统会从活跃集合中按 "难度权重 + 熵值权重" 双重标准采样：

按 8:2 的比例从集合 1 和集合 2 中抽取问题，保证以中等难度题为主；
对每个问题，仅选择其所有轨迹中熵值最低的前 2 条，过滤高熵的 "蒙题轨迹"；
为避免重复复习，同一经验的两次采样间隔不低于 3 轮训练。

通过这种采样策略，ExGRPO 确保每次复习的都是 "中等难度 + 低熵轨迹" 的黄金组合，使样本利用率提升 40% 以上。

模块二：在 "复盘" 与 "探索" 间找平衡

只复盘旧经验会让模型 "僵化"，只探索新问题会重蹈 "盲目刷题" 覆辙。ExGRPO 的解决之道是混合 On/Off-policy 优化，通俗说就是 "一半时间做新题，一半时间复习错题"。

1. 混合批次构建：新题旧题按比例搭配

每次训练的小批量数据由两部分组成：

On-Policy 数据（50%）：当前策略生成的新轨迹，用于探索未知问题、获取新鲜经验；
Off-Policy 数据（50%）：从经验缓冲区采样的历史优质经验，用于巩固已学方法。

这种搭配既保证模型能接触新题，又能通过复习强化有效策略。实验显示，5:5 的比例在数学推理任务上效果最佳，若 Off-Policy 比例过高（＞70%）会导致泛化能力下降，比例过低（＜30%）则无法发挥复盘价值。

2. 相对优势计算：用 "群体对比" 替代 "绝对评分"

为解决奖励信号噪音问题，ExGRPO 继承并优化了 GRPO 的核心创新 ——组内相对评估。具体做法是：

对每个问题，同时生成 4-8 个候选轨迹（构成评估组）；
计算组内所有轨迹的奖励均值和标准差，将单个轨迹的奖励标准化为 "相对优势"：相对优势 = (单条轨迹奖励 - 组内均值) / 组内标准差
仅保留相对优势＞0 的轨迹用于训练，确保模型只学习组内表现更好的策略。

这种方式彻底摆脱了对绝对奖励的依赖，就像通过班级排名判断学生水平而非单次考试分数，能有效抵消奖励模型的校准误差。DeepSeek 的实验证明，相对优势计算使训练稳定性提升 70%。

添加图片注释，不超过 140 字（可选）

3. 策略塑造与约束：复习不 "死记"，探索不 "跑偏"

为防止模型复习旧经验时变成 "答案复读机"，ExGRPO 设计了非线性策略塑造机制：对回放的历史轨迹，通过指数函数放大低概率 token 的权重、抑制高概率 token 的权重。简单说就是 "重点复习易错步骤，淡化机械记忆的内容"，确保模型学的是解题逻辑而非固定答案。

同时，框架还引入反向 KL 散度约束，通过动态调整 β 参数（初始 0.05，随训练指数衰减）限制新旧策略的差异。这就像给策略更新装了 "限速器"，避免模型因突然的探索或复盘产生剧烈波动，保证训练过程平稳收敛。

四、ExGRPO 让 AI 推理能力全面跃升

在 1.5B 到 8B 不同规模的 5 个骨干模型（涵盖 Qwen、Llama 两大架构）上，ExGRPO 的表现全面超越传统方法，用数据证明了 "聪明复盘" 的价值。

1. 准确率显著提升

在数学推理基准测试中，ExGRPO 平均提升 3.5 个百分点：

Qwen2.5-Math 7B 在 GSM8K（小学级数学题）上准确率从 82.9% 升至 86.4%；
在 MATH（高中级数学题）上从 46.8% 升至 50.3%，其中多步证明题的正确推导步骤平均增加 3.2 步。

在通用推理任务上，优势更明显：GPQA（研究生级推理）准确率提升 7.6%，MMLU-Pro（多领域专业知识）提升 5.2%，尤其在分布外任务（未见过的题型）上表现突出，证明模型真正学会了可迁移的推理逻辑。

添加图片注释，不超过 140 字（可选）

2. 训练稳定性大幅增强

对 Llama-3.1 8B 这类传统方法会训练崩溃的模型，ExGRPO 实现了 "从 0 到 1" 的突破：不仅成功收敛，还在 MATH 数据集上取得 48.1% 的准确率，远超 RLVR 的 0%（训练中途崩溃）。

添加图片注释，不超过 140 字（可选）

即使是 1.5B 小模型，ExGRPO 也能将训练波动幅度降低 60%—— 传统 RLVR 的准确率标准差通常在 5% 以上，而 ExGRPO 能控制在 2% 以内，避免了 "忽高忽低" 的训练乱象。

3. 资源效率显著优化

由于过滤了低价值经验、减少了无效探索，ExGRPO 使训练效率提升 40%：

显存占用降低 55%，8B 模型训练仅需 29GB 显存，普通消费级 GPU 即可胜任；
训练时间缩短 35%，Qwen2.5-Math 7B 的数学推理训练从 14 小时压缩至 9 小时；
数据利用率提升 2 倍，相同数据集下的有效训练样本量比传统方法多一倍。

论文： arxiv.org/pdf/2510.02…

Code： github.com/ElliottYan/…

模型： huggingface.co/collections…