NLP论文速读（腾讯最新出品） |无需训练来进行基于GRPO的强化学习！NLP论文速读（腾讯最新出品） |无需训练来进行

NLP论文速读（腾讯最新出品） |无需训练来进行基于GRPO的强化学习！

论文信息：

简介

当前大型语言模型（LLM）智能体在数学推理、网页搜索等专业化、工具密集型场景中表现欠佳，而传统“Agentic RL”路线依赖参数微调——计算贵、数据多、易过拟合，且每换一个领域就要重新训练一整颗模型，部署与维护成本极高。作者提出一个更实际的问题：能否不碰模型权重，仅通过推理时的上下文，就让通用大模型获得与微调相当的领域专业能力？

受Group Relative Policy Optimization（GRPO）“组内相对优劣”思想的启发，作者把策略优化从参数空间搬到上下文空间，提出 Training-Free GRPO：

1）仍然让冻结的大模型对同一问题并行采样 G 条轨迹；

2）用奖励模型打分后，不再计算数值优势，而是让模型自己写“自然语言总结”和“相对优劣解释”——称为语义优势；

3）把这些高阶经验片段存入一个外部经验库 E，后续再调用模型时把 E 作为 token prior 拼进提示，即可引导输出向高奖励方向偏移；

4）整个过程零梯度、零参数更新，靠多轮经验蒸馏不断增删改经验库，实现轻量级、可迁移的“上下文 RL”。

论文方法

Figure 2 是一幅“参数空间 vs. 上下文空间”的对比示意图，用左右两栏把传统 GRPO 与本文提出的 Training-Free GRPO 的核心差异画在一张图里：

1）左栏（a）Vanilla GRPO：采样 → 数值奖励 → 计算组内优势 → 梯度更新模型参数；

2）右栏（b）Training-Free GRPO：采样 → 数值奖励 → 生成自然语言总结与语义优势 → 更新外部经验库 E → 冻结模型在下一轮把 E 作为 token prior 拼接进提示。

下面按图索骥，把这张图拆成四步详细展开，并结合后文实验说明每一步如何落地。

① Rollout & Reward：与传统 GRPO 完全一致

a）对同一 query q，并行采样 G 条轨迹（group size G≈3–5），用奖励模型打分得到标量奖励 r_i。

b）关键差异：右栏不计算数值优势，而是把每条轨迹 o_i 连同奖励一起送入 LLM，让模型自己写摘要 s_i 和优劣解释。

② Semantic Group Advantage：把“数值”转成“文字”

a）提示模板同时输入：

所有摘要 {s_i}
当前经验库 E（上一轮留下的“小贴士”）

b）LLM 输出一段自然语言 A_text，内容形如：

“轨迹 1 成功因为先验证几何约束再解方程；轨迹 2 失败在于把点放到了线段延长线上，违反 boundedness。”

c）这段 A_text 就是语义优势，功能等价于 vanilla GRPO 的 Â_i，但可阅读、可编辑、可积累。

③ Experience Library Update：外部“经验条”随批次进化

a）用 LLM 再次解析 A_text，生成对 E 的增删改操作（Add / Delete / Modify / Keep）。

b）图 2 右栏用四个小图标形象化：

- 把新经验追加到 E；
– 删除过时或冲突的旧经验；
↻ 合并/精炼已有经验；
= 保持不变。

c）整个库 E 就是轻量级 token prior，多轮学习后浓缩成几十条“战略级”提示，不占 GPU 显存，只占文本长度。

④ Inference-Time Steering：冻结模型也能“改分布”

a）下一轮推理时，把更新后的 E 直接拼在系统提示里，模型参数未动，但输出分布已偏向高奖励策略。

b）图 2 最右侧用大箭头表示：同一冻结模型 π_θ，靠换上下文即可实现策略迭代，效果等价于左栏的“梯度上升”。

论文实验

Table 1 显示，仅用 100 条样本、零梯度、约 18 美元成本的 Training-Free GRPO 就把冻结的 DeepSeek-V3.1-Terminus 在 AIME24/25 上提升到 82.7% 与 73.3%，绝对增益 +2.7%/+5.4%，轻松超过花费上万美元、专门微调过的 32B 模型，验证“换上下文”比“调权重”更便宜也更强大。

Figure 4 展示 Training-Free GRPO 在 3 轮经验迭代中的学习曲线：冻结的 DeepSeek-V3.1-Terminus 在仅 100 题的 DAPO-100 训练集上逐轮提升，Mean@5 从首轮 74 升至 86，同时 AIME24/25 的 out-of-domain Mean@32 也由 80.0/67.9 增至 82.7/73.3；伴随性能上升，平均工具调用次数下降约 15%，表明语义优势不仅提高正确率，还让模型学会更简洁高效地使用工具。