NLP论文速读(腾讯最新出品) |无需训练来进行基于GRPO的强化学习!
论文信息:
1
简介
当前大型语言模型(LLM)智能体在数学推理、网页搜索等专业化、工具密集型场景中表现欠佳,而传统“Agentic RL”路线依赖参数微调——计算贵、数据多、易过拟合,且每换一个领域就要重新训练一整颗模型,部署与维护成本极高。作者提出一个更实际的问题:能否不碰模型权重,仅通过推理时的上下文,就让通用大模型获得与微调相当的领域专业能力?
受Group Relative Policy Optimization(GRPO)“组内相对优劣”思想的启发,作者把策略优化从参数空间搬到上下文空间,提出 Training-Free GRPO:
1)仍然让冻结的大模型对同一问题并行采样 G 条轨迹;
2)用奖励模型打分后,不再计算数值优势,而是让模型自己写“自然语言总结”和“相对优劣解释”——称为语义优势;
3)把这些高阶经验片段存入一个外部经验库 E,后续再调用模型时把 E 作为 token prior 拼进提示,即可引导输出向高奖励方向偏移;
4)整个过程零梯度、零参数更新,靠多轮经验蒸馏不断增删改经验库,实现轻量级、可迁移的“上下文 RL”。
2
论文方法
Figure 2 是一幅“参数空间 vs. 上下文空间”的对比示意图,用左右两栏把传统 GRPO 与本文提出的 Training-Free GRPO 的核心差异画在一张图里:
1)左栏(a)Vanilla GRPO:采样 → 数值奖励 → 计算组内优势 → 梯度更新模型参数;
2)右栏(b)Training-Free GRPO:采样 → 数值奖励 → 生成自然语言总结与语义优势 → 更新外部经验库 E → 冻结模型在下一轮把 E 作为 token prior 拼接进提示。
下面按图索骥,把这张图拆成四步详细展开,并结合后文实验说明每一步如何落地。
① Rollout & Reward:与传统 GRPO 完全一致
a)对同一 query q,并行采样 G 条轨迹(group size G≈3–5),用奖励模型打分得到标量奖励 r_i。
b)关键差异:右栏不计算数值优势,而是把每条轨迹 o_i 连同奖励一起送入 LLM,让模型自己写摘要 s_i 和优劣解释。
② Semantic Group Advantage:把“数值”转成“文字”
a)提示模板同时输入:
- 所有摘要 {s_i}
- 当前经验库 E(上一轮留下的“小贴士”)
b)LLM 输出一段自然语言 A_text,内容形如:
“轨迹 1 成功因为先验证几何约束再解方程;轨迹 2 失败在于把点放到了线段延长线上,违反 boundedness。”
c)这段 A_text 就是语义优势,功能等价于 vanilla GRPO 的 Â_i,但可阅读、可编辑、可积累。
③ Experience Library Update:外部“经验条”随批次进化
a)用 LLM 再次解析 A_text,生成对 E 的增删改操作(Add / Delete / Modify / Keep)。
b)图 2 右栏用四个小图标形象化:
-
- 把新经验追加到 E;
- – 删除过时或冲突的旧经验;
- ↻ 合并/精炼已有经验;
- = 保持不变。
c)整个库 E 就是轻量级 token prior,多轮学习后浓缩成几十条“战略级”提示,不占 GPU 显存,只占文本长度。
④ Inference-Time Steering:冻结模型也能“改分布”
a)下一轮推理时,把更新后的 E 直接拼在系统提示里,模型参数未动,但输出分布已偏向高奖励策略。
b)图 2 最右侧用大箭头表示:同一冻结模型 π_θ,靠换上下文即可实现策略迭代,效果等价于左栏的“梯度上升”。
3
论文实验
Table 1 显示,仅用 100 条样本、零梯度、约 18 美元成本的 Training-Free GRPO 就把冻结的 DeepSeek-V3.1-Terminus 在 AIME24/25 上提升到 82.7% 与 73.3%,绝对增益 +2.7%/+5.4%,轻松超过花费上万美元、专门微调过的 32B 模型,验证“换上下文”比“调权重”更便宜也更强大。
Figure 4 展示 Training-Free GRPO 在 3 轮经验迭代中的学习曲线:冻结的 DeepSeek-V3.1-Terminus 在仅 100 题的 DAPO-100 训练集上逐轮提升,Mean@5 从首轮 74 升至 86,同时 AIME24/25 的 out-of-domain Mean@32 也由 80.0/67.9 增至 82.7/73.3;伴随性能上升,平均工具调用次数下降约 15%,表明语义优势不仅提高正确率,还让模型学会更简洁高效地使用工具。