大模型推理新范式:ExGRPO 如何让 AI 从 "盲目刷题" 进化到 "聪明复盘"

75 阅读12分钟

大模型推理新范式:ExGRPO 如何让 AI 从 "盲目刷题" 进化到 "聪明复盘"

大家好,我是AI算法工程师七月,曾在华为、阿里任职,技术栈广泛,爱好广泛,喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。

  • 关注公众号:智启七月,获取最新观察、思考和文章推送。
  • 关注知乎:七月,获取最新观察、思考和文章推送。
  • 关注CSDN:智启七月,获取最新观察、思考和文章推送。
  • 关注稀土掘金:智启七月,获取最新观察、思考和文章推送。
  • 网站1 :七月
  • 网站2:zerodesk

我会在这里分享关于 编程技术、独立开发、行业资讯,思考感悟 等内容。爱好交友,想加群滴滴我,wx:swk15688532358,交流分享

如果本文能给你提供启发或帮助,欢迎动动小手指,一键三连 (点赞、评论、转发),给我一些支持和鼓励,谢谢。

作者:七月 链接:julyblog 来源:七月 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

ExGRP发布

当我们抱怨大模型做数学题时 "步骤混乱"、解逻辑题时 "漏洞百出",本质上是在吐槽一种低效的学习模式 —— 就像学生闷头刷海量习题却从不复盘,既浪费精力又难有突破。直到 ExGRPO(基于经验分组的相对策略优化,Experiential Group Relative Policy Optimization)框架的出现,大模型推理训练终于迎来了 "从盲目刷题到聪明复盘" 的范式革命。

这种由上海人工智能实验室、澳门大学等机构联合提出的新技术,核心是给大模型装上了一套 "智能错题本 + 科学复习计划",让模型学会筛选有价值的经验、高效复用优质思路。本文将从传统方法的痛点切入,层层拆解 ExGRPO 的技术原理,揭开 AI"越学越聪明" 的秘密。

老规矩先放传送门

论文: arxiv.org/pdf/2510.02…

Code: github.com/ElliottYan/…

模型: huggingface.co/collections…

一、传统推理训练的困局:为何 AI 刷题越多越迷茫?

要理解 ExGRPO 的革新性,首先得看清传统大模型推理训练的三大核心痛点 —— 这正是 "盲目刷题" 模式的典型病症。

1. 经验的 "一次性浪费"

目前主流的强化学习从可验证奖励(RLVR)方法采用 "在线刷题" 模式:模型生成解题轨迹、获得奖励反馈、更新参数后,这条轨迹就被直接丢弃,如同做完题就撕掉试卷。上海 AI 实验室的实验显示,在数学推理任务中,约 60% 的高价值解题轨迹(逻辑清晰且能复用于同类问题)会因这种模式彻底流失。

更可惜的是,这些流失的经验中,有大量处于模型 "最近发展区" 的关键案例 —— 既不是随手就能做对的简单题,也不是完全无从下手的难题。就像学生刚掌握一元二次方程时,那些需要结合因式分解与判别式的中档题,恰恰是能力跃迁的关键,却被传统方法 "做过就丢"。

2. 奖励信号的 "噪音污染"

传统 RLVR 依赖奖励模型对解题结果打分,但这种 "绝对评分" 存在严重缺陷:要么因奖励尺度混乱导致信号失真,要么因轨迹质量误判让模型学坏。

比如有些解题轨迹虽然答案正确,但推理过程充满随机性(俗称 "蒙对的"),其奖励分却与逻辑严谨的轨迹相同。模型反复学习这类 "伪优质" 轨迹后,会形成 "靠运气而非逻辑" 的解题习惯,出现 "越训练越不稳定" 的怪象。DeepSeek 团队的实验就发现,这种 "噪音轨迹" 会使 MATH 数据集准确率下降 4-6 个百分点。

3. 训练资源的 "低效空转"

传统方法中,模型约 30% 的算力消耗在两类无意义的学习上:一是反复刷已经掌握的简单题(正确率超 75%),收益趋近于零;二是死磕远超当前能力的难题(正确率低于 25%),导致模型因频繁失败而 "习得性无助",甚至产生乱猜答案的坏习惯。

更棘手的是,当模型能力较弱(如 1.5B 小模型)或较强(如 8B 基础模型)时,传统 RLVR 还会因奖励信号不足或策略波动过大而训练崩溃。Llama-3.1 8B 的实验就证明,标准 RLVR 在此模型上会因 "奖励饥荒" 彻底失效,而 ExGRPO 却能稳定收敛。

二、ExGRPO 的核心洞察:什么样的经验才值得 "复盘"?

ExGRPO 的突破始于两个关键发现 —— 就像优秀教师懂得 "挑题" 和 "辨方法",这套框架先搞清楚了:对大模型而言,哪些题该重点练,以及哪些解题思路值得学

1. 难度分层:只抓 "踮脚够得着" 的题

研究团队将训练题按模型在线正确率分为三类,通过对比实验发现了惊人规律:

  • 简单题(正确率>75%):训练收益随次数增加快速衰减,重复训练 10 轮后几乎无提升;
  • 困难题(正确率<25%):模型无法从失败中提取有效信息,反而导致推理熵值上升 12%;
  • 中等题(正确率 25%-75%):训练收益最高,单轮训练能使测试准确率提升 2.1 个百分点。

img

添加图片注释,不超过 140 字(可选)

这印证了教育学中的 "最近发展区" 理论:最有效的学习发生在 "已有能力" 与 "潜在能力" 的交界处。ExGRPO 正是抓住这一点,将中等难度题定为 "复盘核心素材"。

2. 轨迹筛选:用 "熵" 判断推理质量

为解决 "蒙对的题误导模型" 的问题,团队引入了 "轨迹熵" 这一关键指标 —— 熵值越低,说明推理步骤越确定、逻辑越连贯;熵值越高,说明轨迹充满随机性、逻辑越松散。

img

添加图片注释,不超过 140 字(可选)

实验显示,低熵轨迹(平均 token 熵<1.2)的复现价值是高熵轨迹(平均 token 熵>2.0)的 3 倍:用低熵轨迹训练的模型,在 GPQA 通用推理数据集上准确率提升 7.6%;而用高熵轨迹训练的模型,准确率反而下降 2.3%。

这个发现彻底改变了 "唯答案论" 的评价标准:ExGRPO 认为,逻辑严谨的错误轨迹,比随机蒙对的正确轨迹更有学习价值

三、ExGRPO 技术拆解:一套 "聪明复盘" 的完整流程

基于上述洞察,ExGRPO 构建了 "经验管理 + 策略优化" 两大核心模块,形成了从 "收集经验" 到 "高效复用" 的闭环。这套流程就像给模型配备了一位 "私人助教",负责整理错题本、制定复习计划、监督复习质量。

模块一:AI 的 "智能错题本"

传统方法的经验是 "流动的溪水",用过即走;ExGRPO 的经验是 "沉淀的水库",分类存储、动态更新。这个系统分为三步运作:

img

添加图片注释,不超过 140 字(可选)

1. 经验收集:只存 "成功且可信" 的轨迹

首先构建一个经验回放缓冲区,专门收集模型训练中产生的 "成功轨迹"—— 既包括答案正确的轨迹,也包括逻辑严谨(低熵)的错误轨迹。每条经验都包含 "问题描述 + 推理步骤 + 奖励分数 + 轨迹熵值" 四要素,确保信息完整。

为避免初期收集低质量经验,ExGRPO 还设计了延迟启动机制:前 5 轮训练仅运行标准 RLVR,待模型在验证集准确率突破 30%(具备基础解题能力)后,才激活经验回放功能。这就像不让小学生直接做奥数题,先打基础再练难题。

img

添加图片注释,不超过 140 字(可选)

2. 动态分区:给经验 "贴标签、分等级"

缓冲区中的经验会按 "问题难度" 动态分区,形成三个核心集合:

  • 活跃集合 1(中等难度):正确率 25%-75% 的问题对应的经验,作为优先复习区;
  • 活跃集合 2(困难难度):正确率<25% 的问题对应的经验,按 10% 比例抽样复习;
  • 退休集合(简单难度):正确率>75% 的问题对应的经验,暂时移出缓冲区,仅每周复查一次。

这种分区不是固定不变的:每当模型对某类问题的正确率提升,对应的经验会自动迁移到更高等级的集合。比如某道题从 "困难" 变为 "中等" 后,会立即进入优先复习区,确保资源始终向高价值经验倾斜。

3. 优先级采样:挑出 "最该复习的经验"

每次训练前,系统会从活跃集合中按 "难度权重 + 熵值权重" 双重标准采样:

  1. 按 8:2 的比例从集合 1 和集合 2 中抽取问题,保证以中等难度题为主;
  2. 对每个问题,仅选择其所有轨迹中熵值最低的前 2 条,过滤高熵的 "蒙题轨迹";
  3. 为避免重复复习,同一经验的两次采样间隔不低于 3 轮训练。

通过这种采样策略,ExGRPO 确保每次复习的都是 "中等难度 + 低熵轨迹" 的黄金组合,使样本利用率提升 40% 以上。

模块二:在 "复盘" 与 "探索" 间找平衡

只复盘旧经验会让模型 "僵化",只探索新问题会重蹈 "盲目刷题" 覆辙。ExGRPO 的解决之道是混合 On/Off-policy 优化,通俗说就是 "一半时间做新题,一半时间复习错题"。

1. 混合批次构建:新题旧题按比例搭配

每次训练的小批量数据由两部分组成:

  • On-Policy 数据(50%):当前策略生成的新轨迹,用于探索未知问题、获取新鲜经验;
  • Off-Policy 数据(50%):从经验缓冲区采样的历史优质经验,用于巩固已学方法。

这种搭配既保证模型能接触新题,又能通过复习强化有效策略。实验显示,5:5 的比例在数学推理任务上效果最佳,若 Off-Policy 比例过高(>70%)会导致泛化能力下降,比例过低(<30%)则无法发挥复盘价值。

2. 相对优势计算:用 "群体对比" 替代 "绝对评分"

为解决奖励信号噪音问题,ExGRPO 继承并优化了 GRPO 的核心创新 ——组内相对评估。具体做法是:

  1. 对每个问题,同时生成 4-8 个候选轨迹(构成评估组);
  2. 计算组内所有轨迹的奖励均值和标准差,将单个轨迹的奖励标准化为 "相对优势": 相对优势 = (单条轨迹奖励 - 组内均值) / 组内标准差
  3. 仅保留相对优势>0 的轨迹用于训练,确保模型只学习组内表现更好的策略。

这种方式彻底摆脱了对绝对奖励的依赖,就像通过班级排名判断学生水平而非单次考试分数,能有效抵消奖励模型的校准误差。DeepSeek 的实验证明,相对优势计算使训练稳定性提升 70%。

img

添加图片注释,不超过 140 字(可选)

3. 策略塑造与约束:复习不 "死记",探索不 "跑偏"

为防止模型复习旧经验时变成 "答案复读机",ExGRPO 设计了非线性策略塑造机制:对回放的历史轨迹,通过指数函数放大低概率 token 的权重、抑制高概率 token 的权重。简单说就是 "重点复习易错步骤,淡化机械记忆的内容",确保模型学的是解题逻辑而非固定答案。

同时,框架还引入反向 KL 散度约束,通过动态调整 β 参数(初始 0.05,随训练指数衰减)限制新旧策略的差异。这就像给策略更新装了 "限速器",避免模型因突然的探索或复盘产生剧烈波动,保证训练过程平稳收敛。

四、ExGRPO 让 AI 推理能力全面跃升

在 1.5B 到 8B 不同规模的 5 个骨干模型(涵盖 Qwen、Llama 两大架构)上,ExGRPO 的表现全面超越传统方法,用数据证明了 "聪明复盘" 的价值。

1. 准确率显著提升

在数学推理基准测试中,ExGRPO 平均提升 3.5 个百分点:

  • Qwen2.5-Math 7B 在 GSM8K(小学级数学题)上准确率从 82.9% 升至 86.4%;
  • 在 MATH(高中级数学题)上从 46.8% 升至 50.3%,其中多步证明题的正确推导步骤平均增加 3.2 步。

在通用推理任务上,优势更明显:GPQA(研究生级推理)准确率提升 7.6%,MMLU-Pro(多领域专业知识)提升 5.2%,尤其在分布外任务(未见过的题型)上表现突出,证明模型真正学会了可迁移的推理逻辑。

img

添加图片注释,不超过 140 字(可选)

2. 训练稳定性大幅增强

对 Llama-3.1 8B 这类传统方法会训练崩溃的模型,ExGRPO 实现了 "从 0 到 1" 的突破:不仅成功收敛,还在 MATH 数据集上取得 48.1% 的准确率,远超 RLVR 的 0%(训练中途崩溃)。

img

添加图片注释,不超过 140 字(可选)

即使是 1.5B 小模型,ExGRPO 也能将训练波动幅度降低 60%—— 传统 RLVR 的准确率标准差通常在 5% 以上,而 ExGRPO 能控制在 2% 以内,避免了 "忽高忽低" 的训练乱象。

3. 资源效率显著优化

由于过滤了低价值经验、减少了无效探索,ExGRPO 使训练效率提升 40%:

  • 显存占用降低 55%,8B 模型训练仅需 29GB 显存,普通消费级 GPU 即可胜任;
  • 训练时间缩短 35%,Qwen2.5-Math 7B 的数学推理训练从 14 小时压缩至 9 小时;
  • 数据利用率提升 2 倍,相同数据集下的有效训练样本量比传统方法多一倍。

论文: arxiv.org/pdf/2510.02…

Code: github.com/ElliottYan/…

模型: huggingface.co/collections…