告别微调！腾讯提出Training-Free GRPO：无需更新参数，还能保证泛化性，成为传统RL的有力替代告别微调！腾

告别微调！腾讯提出Training-Free GRPO：无需更新参数，还能保证泛化性，成为传统RL的有力替代

大型语言模型（LLM）如GPT-4、DeepSeek等，已经在通用任务上表现出色，但在专业领域（如数学推理、网络搜索）中，它们常常表现不佳。这是因为这些任务需要模型灵活使用外部工具（如计算器、浏览器），并结合领域特定的提示策略。传统方法通常通过“微调”模型参数来适应新任务，但这需要大量标注数据、昂贵的计算资源，并且容易导致模型“过拟合”——即在新任务上表现差强人意。【大模型教程】

正是在这样的背景下，腾讯优图实验室提出了Training-Free Group Relative Policy Optimization。这是一种无需更新模型参数、仅通过“上下文学习”就能提升LLM代理性能的新方法。它像是一位“经验丰富的教练”，通过总结成功与失败的经验，指导模型在后续任务中做出更优决策，而无需重新训练模型本身。这种方法不仅成本极低，还能保持模型原有的泛化能力，成为传统强化学习方法的有力替代。

研究动机：告别“调参”时代

传统强化学习方法（如GRPO）通过更新模型参数来优化策略，但这带来四大问题：

计算成本高：即使是小模型（如32B参数）的微调，也需要上万美元的GPU资源。
泛化能力差：模型在训练任务上表现好，但在新任务上表现不佳。
数据需求大：需要大量高质量标注数据，在专业领域中难以获取。
收益递减：由于成本限制，往往只能微调小模型，而无法利用更大模型的潜力。

论文提出一个根本性问题：是否只能通过参数更新来优化模型？ 答案是否定的。LLM本身具备强大的上下文学习能力，只需少量“练习样本”，就能通过经验总结提升表现。Training-Free GRPO正是基于这一理念，将优化过程从“参数空间”转移到“上下文空间”，通过动态更新提示中的经验知识库来引导模型行为。

方法详解：Training-Free GRPO如何工作？

整体流程概述

Training-Free GRPO模仿传统GRPO的多轮学习机制，但完全不更新模型参数。其核心是维护一个经验知识库，在每轮迭代中，模型根据当前经验生成多个答案，评估它们的质量，并总结出“成功经验”或“失败教训”，更新到知识库中。后续查询时，模型会参考这些经验，从而提升表现。

上图对比了传统GRPO与Training-Free GRPO的流程。传统GRPO通过梯度更新参数，而Training-Free GRPO通过更新上下文中的经验库来实现优化。

关键步骤拆解

Rollout与奖励
对于每个问题，模型生成一组答案（例如5个），并使用奖励模型（或真实答案）为每个答案打分。
组相对语义优势计算
传统GRPO使用数值公式计算每个答案的相对优势：

其中：

这个公式衡量每个答案在组内的“相对好坏”。但在Training-Free GRPO中，不直接使用数值，而是让LLM自己分析这些答案，总结出“为什么A答案比B答案好”的语义描述，形成一条条经验（例如：“在几何题中，应先验证点是否在边界内，避免无效解”）。

是第i个答案的奖励分数
和分别是组内奖励的均值和标准差

经验库优化
系统根据语义优势，对经验库进行四种操作：

这些操作由LLM自动判断和执行，确保经验库始终保持高质量、高泛化性。

添加：新增一条经验
删除：移除无效经验
修改：优化现有经验
保留：不做改动

与传统GRPO的对比

相同点：都使用组内比较、多轮学习。
不同点：

传统GRPO更新模型参数，Training-Free GRPO更新上下文经验。
传统GRPO依赖数值优势，Training-Free GRPO使用语义优势。
传统GRPO需要大量数据与计算，Training-Free GRPO仅需少量样本与API调用。

实验验证：效果如何？

数学推理任务

论文在AIME 2024和2025数学竞赛题上测试方法，使用DeepSeek-V3.1-Terminus（671B参数）模型，仅用100个训练样本。

结果显示：

无工具提示：准确率从68.6%提升至72.6%（+4.0%）
带工具ReAct：准确率从80.0%提升至82.7%（+2.7%），AIME25从67.9%提升至73.3%（+5.4%）

相比之下，传统RL方法（如ReTool、AFM）需数千样本、上万美元训练小模型，而Training-Free GRPO仅花费约18美元。

上图展示了学习过程中性能稳步提升，同时工具调用次数减少，说明模型学会了更高效的解题策略。

网络搜索任务

在WebWalkerQA基准上，使用100条训练样本：

ReAct基线：63.2%

Training-Free GRPO：67.8%（+4.6%）

模型学会了优先点击官方来源、优化搜索词等实用策略。

跨领域泛化能力

传统方法在跨领域测试中表现大幅下降（如数学模型在搜索任务中准确率仅18.3%），而Training-Free GRPO通过切换经验库，在数学和搜索任务中均达到最优表现，凸显其泛化优势。

讨论与分析：为什么它有效？

消融研究：关键组件的作用

直接生成经验：性能反而下降，说明未经优化的经验无效。
无真实答案：仅通过组内比较也能提升，说明方法在无监督场景下仍有效。
无组计算：性能显著下降，证明组内比较是语义优势的核心。

模型规模的影响

在Qwen2.5-32B等小模型上，提升有限甚至下降。
在DeepSeek-V3.1-Terminus等大模型上，提升显著。

说明：Training-Free GRPO更适合能力强的大模型，因为语义理解与经验总结需要较高的推理能力。

经验知识的实际案例

论文附录中列出了学到的经验示例，例如：

“在几何题中，验证解是否在边界内，避免无效解”
“优先从官方来源提取信息，而非第三方摘要”

这些经验像“解题技巧”一样，被插入到提示中，引导模型更稳健地推理和行动。

结论与展望

核心贡献总结

新范式：首次将RL优化从参数空间移至上下文空间，实现“训练免费”的代理优化。
语义优势：用自然语言经验替代数值优势，更贴合LLM的认知方式。
高效实用：仅需几十样本、几十美元，就能显著提升大模型在专业任务上的表现。

研究价值与现实意义

为资源有限的场景（如中小企业、科研机构）提供了高效优化LLM代理的路径。
保持了模型的泛化能力，避免“专才模型”的局限性。
为后续研究开辟了新方向：上下文空间的强化学习。

未来展望

扩展到更多领域（如代码生成、医疗诊断）。
结合更复杂的经验管理机制（如分层知识库）。
探索自动化奖励模型的设计，减少对真实答案的依赖。