熵值稳定≠推理在线：揭秘Agent训练中的“模板坍塌”新陷阱使用强化学习（Reinforcement Learning,

使用强化学习（Reinforcement Learning, RL）训练多轮交互的大语言模型（LLM）Agent，是一项公认的挑战。由于过程复杂、反馈稀疏，研究者和工程师们通常会紧盯两个核心指标：任务奖励（Reward），用以衡量最终结果的好坏；策略熵（Entropy），用以衡量模型思考过程（即推理链）的多样性。长久以来，一个稳定或较高的熵值被认为是训练健康的标志，代表模型正在积极探索、没有过早地收敛到某个次优解。

ArXiv URL：arxiv.org/abs/2604.06…

然而，来自帝国理工学院、微软、斯坦福大学、牛津大学等多家顶尖机构的最新研究 RAGEN-2 揭示了一个令人不安的真相：即使熵值指标看起来一切正常，Agent 的推理能力也可能正在悄然“坍塌”。模型可能学会了生成一些看似多样、实则与具体输入无关的“万能模板”。研究者将这种全新的、现有所有指标都无法捕捉的失败模式命名为 “模板坍塌”（Template Collapse）。

这项工作直指当前 Agent RL 训练方法中的一个核心盲点。它不仅首次识别并定义了“模板坍塌”现象，更从信息论和梯度机制的深层角度，剖析了其产生的根源。研究发现，问题的关键在于训练信号的 信噪比（Signal-to-Noise Ratio, SNR）。当有效信号过弱时，旨在维持多样性的正则化项会反客为主，抹去推理对输入的依赖性。基于这一洞察，论文提出了一种极为简洁高效的解决方案——信噪比感知过滤（SNR-Aware Filtering），在不增加任何额外成本的前提下，显著改善了 Agent 的训练效果和最终性能。

“模板坍塌”：熵值指标的致命盲区

在 Agent 的世界里，推理过程（Reasoning）的质量直接决定了其解决复杂任务的能力。为了让 Agent 在学习过程中保持探索性，避免过早陷入局部最优，研究者广泛采用熵正则化等方法，并用策略熵 $H(Z)$ 来监控推理的多样性。这里的 $Z$ 代表 Agent 生成的推理链。通常认为，熵值越高，说明 Agent 面对同一个问题能想出更多不同的解法，这在训练初期是件好事。

但 RAGEN-2 团队敏锐地指出，熵值本身是一个“模糊的信号”。熵的下降可能只是模型在特定任务上变得更加“自信”和“专精”的自然结果。而更危险的情况是，熵值居高不下，也并不意味着推理是健康的。

为了精确诊断问题，论文引入了信息论的视角，将推理链的总熵 $H(Z)$ 分解为两个部分：

$H(Z) = H(Z|X) + I(X;Z)$

条件熵 $H(Z|X)$ ：代表 “输入内多样性”（within-input diversity）。它衡量的是，对于 同一个 输入 $X$ ，模型生成的不同推理链 $Z$ 之间的多样性。这正是传统熵指标所关注的。
互信息 $I(X;Z)$ ：代表 “跨输入区分度”（cross-input distinguishability）。它衡量的是，推理链 $Z$ 与输入 $X$ 之间的关联程度。一个高的互信息意味着，当你改变输入 $X$ 时，模型的推理过程 $Z$ 也会相应地、系统性地发生改变。这才是真正的 “输入驱动”（input-driven） 推理。

有了这个分解，我们就能清晰地定义四种不同的推理状态，如下图所示：

输入驱动的推理与模板化推理的区别，以及基于条件熵和互信息的四种推理状态

多样化推理 (Diverse Reasoning)：高 $H(Z|X)$ ，高 $I(X;Z)$ 。这是最理想的状态，Agent 的思考既有创造性，又能紧密贴合具体问题。
模板坍塌 (Template Collapse)：高 $H(Z|X)$ ，低 $I(X;Z)$ 。这是本文揭示的核心问题。Agent 的推理表面上看起来花样繁多（高条件熵），但实际上与输入无关（低互信息）。它只是在用一套固定的、华丽的模板来应对所有问题，完全丧失了具体问题具体分析的能力。
压缩式推理 (Compressed Reasoning)：低 $H(Z|X)$ ，高 $I(X;Z)$ 。Agent 的推理忠实于输入，但变得过于确定和死板，缺乏探索性。
低熵坍塌 (Low-Entropy Collapse)：低 $H(Z|X)$ ，低 $I(X;Z)$ 。最糟糕的状态，推理既确定又与输入无关，完全退化。

“模板坍塌”之所以如此凶险，正是因为它完美地隐藏在传统熵指标的盲区之下。监控系统会报告“多样性良好”，但 Agent 的核心推理能力已经空洞化。

为了将这一问题从理论暴露在阳光下，研究者设计了一套无需外部模型的 互信息代理指标（Mutual Information Proxy）。其核心思想非常巧妙：在训练的每个批次（batch）中，对于一个由输入 $X_i$ 生成的推理链 $Z_{i,k}$ ，我们不仅计算它在“正确”输入 $X_i$ 下的概率，还计算它在批次内所有其他“错误”输入 $X_j$ ( $j \neq i$ )下的概率。如果推理是真正输入驱动的，那么 $Z_{i,k}$ 在其原始输入 $X_i$ 下的概率理应远高于在其他输入下的概率。通过这种“交叉评分”的方式，可以有效估算出 $I(X;Z)$ ，从而实时监控模板坍塌的风险。实验也证明，这个 MI 指标与最终任务性能的相关性远强于熵指标。

坍塌的根源：信噪比（SNR）视角下的梯度失效

找到了诊断方法后，下一个更深层次的问题是：为什么 Agent 的 RL 训练会系统性地走向“模板坍塌”？论文给出了一个基于 信噪比（Signal-to-Noise Ratio, SNR） 的精辟解释。

简单来说，当策略梯度更新被与输入无关的“噪声”主导，而不是被区分任务的“信号”主导时，模板坍塌就会发生。

信噪比（SNR）视角下的强化学习更新机制示意图

让我们来拆解一下 Agent 在 RL 训练中的梯度更新过程。总的梯度可以被看作是两部分力量的叠加：

任务梯度 (Task Gradient)：这是“信号”部分。它源于在同一个输入下，不同推理路径所获得的 奖励差异。当 Agent 尝试了多种方法，有的奖励高，有的奖励低，这种差异就构成了明确的“信号”，告诉模型应该朝哪个方向优化。这个信号的强度，与奖励的方差 $\widehat{\mathrm{Var}}(R\mid X)$ 正相关。方差越大，信号越强，模型就越清楚好坏之分。
正则化梯度 (Regularization Gradient)：这可以被视为“噪声”部分。这里的“噪声”并非指随机扰动，而是指那些 与输入无关（input-agnostic） 的优化力量，例如 KL 散度约束（让新策略不要偏离旧策略太远）和熵正则化（鼓励多样性）。这些正则项对所有推理链施加的影响是均等的，其目的是维持训练的稳定性或探索性，但它们本身并不包含关于如何解决特定任务 $X$ 的信息。

论文通过实验，将训练数据按“输入内奖励方差” $\widehat{\mathrm{Var}}(R\mid X)$ 从低到高分组，并分别测量了任务梯度和正则化梯度的范数。结果清晰地呈现了一个趋势：

不同奖励方差分组下的任务梯度与正则化梯度范数对比

对于奖励方差很低的那些训练样本，任务梯度（信号）的强度非常微弱，几乎被正则化梯度（噪声）完全压倒。这意味着，对于这些样本，模型更新的主要驱动力不是“如何更好地解决问题”，而是“如何生成更多样、更符合正则化要求的输出”。

当大量的训练更新都处于这种低信噪比状态时，模型就会逐渐学会一个“取巧”的策略：忽略输入的具体细节，转而生成那些能够普适地满足正则化要求的、流畅且多样的“模板化”回答。这正是“模板坍塌”在梯度层面的根本机制——有效信号的淹没导致了对输入依赖性的遗忘。

对症下药：用“信噪比感知过滤”提升训练信号

既然问题的根源在于低信噪比的训练数据污染了梯度更新，那么解决方案也就呼之欲出了：在每次更新前，优先选择那些“高信噪比”的数据。

基于此，论文提出了 信噪比感知过滤（SNR-Aware Filtering） 方法。这个方法极其简单、优雅且高效。它利用“输入内奖励方差” $\widehat{\mathrm{Var}}(R\mid X)$ 作为一个轻量级的信噪比代理指标。

SNR感知过滤的工作流程图

其工作流程如下：

生成轨迹：在每个训练迭代中，像往常一样，使用当前策略为一批（batch）输入（prompts）生成多组轨迹（trajectories）。
计算方差：对于批次中的每一个输入，计算它对应的多组轨迹所获得奖励的方差 $\widehat{\mathrm{Var}}(R\mid X)$ 。
排序与过滤：根据计算出的奖励方差对所有输入进行排序，只保留方差最高的 top-p 比例（例如，保留 90%）的输入及其对应的轨迹。
执行更新：仅使用这个经过筛选的“高信号”子集来执行策略梯度更新。

这个方法的巨大优势在于它的“即插即用”和“零额外成本”。它不需要任何额外的模型、不需要生成额外的样本，仅仅是在现有的 RL 训练循环中增加了一个基于已有信息的、轻量级的过滤步骤。通过主动剔除那些可能会产生“噪声”梯度更新的低方差数据，它直接提升了每次参数更新的“信噪比”，从而迫使模型更专注于学习如何根据不同输入做出有效响应。

实验验证：MI 的诊断力与新方法的有效性

为了证明上述理论的普适性和新方法的有效性，研究团队在极其广泛的实验环境中进行了验证。任务涵盖了不可逆规划（Sokoban）、稀疏奖励导航（FrozenLake）、数学推理（MetaMathQA, Countdown）、网络购物（WebShop）、代码生成（DeepCoder）等七种不同类型的环境。实验中使用了 Qwen2.5-3B 等模型，并对比了 PPO、DAPO 等多种主流 RL 算法。

实验结果有力地支持了论文的核心论点：

1. MI 是更优的诊断指标，能揭示不同干预措施的本质差异

实验清晰地表明，互信息代理指标 $\widehat{I}(X;Z)$ 与最终的任务成功率具有极强的正相关性，远胜于条件熵 $H(Z|X)$ 。如下图所示，不同颜色的曲线代表不同的互信息代理指标变体，它们都与性能（y轴）展现出良好的一致性。

互信息代理指标家族与任务性能的相关性

更有趣的是，通过对比不同的训练干预手段（调整 KL 散度、调整熵正则化强度、应用 SNR 感知过滤），研究者发现：

三种干预措施（SNR过滤、KL约束、熵正则化）对训练动态的影响

如上图所示，调整 KL 约束（蓝色箭头）或熵正则化（绿色箭头）虽然可以改变模型的熵值，但往往无法有效地将模型推向高互信息、高性能的区域。有时强行推高熵值甚至会导致性能崩溃。相比之下，SNR 感知过滤（橙色箭头） 则能稳定地、单调地将模型同时推向更高的互信息和更高的任务性能，清晰地展示了其作为“信号增强”机制的有效性。

2. SNR 感知过滤在多场景下稳定提升性能

在横跨多种任务和算法的对比中，SNR 感知过滤都展现出了一致的性能提升。下图展示了在四个代表性环境中，采用不同过滤策略（Top-p 过滤 vs. 不过滤）的最终任务成功率。结果显示，应用了 SNR 感知过滤（Top-p）的训练效果普遍优于基线。

在四个代表性环境中，SNR感知过滤（Top-p）与不过滤基线的性能对比

此外，研究还发现“模板坍塌”的一个有趣的行为特征：随着训练的进行，如果发生模板坍塌，Agent 生成的推理链长度会系统性地变短。这可能是因为模型在放弃针对性思考后，倾向于使用更简短、更通用的模板。SNR 感知过滤同样能够缓解这一现象。

结论与启示

RAGEN-2 的工作为我们理解和改进 Agent RL 训练提供了一个全新的、深刻的视角。它告诉我们，在追求模型能力提升的道路上，我们所以为的“稳定”可能只是一种假象。

这项研究的核心贡献可以总结为三点：

识别新问题：首次定义并揭示了“模板坍塌”这一潜藏在现有监控指标下的新型失败模式。
提供新诊断：提出了一套基于互信息（MI）的代理指标，能够有效诊断模板坍塌，并且该指标与任务性能的相关性远超传统的熵指标。
给出新机制与新方法：通过信噪比（SNR）的视角，深刻解释了模板坍塌的梯度层面成因，并顺势提出了一种简单、普适且高效的“SNR 感知过滤”方法，通过筛选高奖励方差的训练数据来直接提升训练信号质量。

对于所有从事大模型 Agent 研究和开发的从业者来说，这项工作带来了极具实践价值的启示。当我们发现自己的 Agent 训练停滞不前，或者在评估中表现不稳定时，除了检查奖励函数和常规超参数，或许更应该问一个问题：我的 Agent 是真的在“思考”，还是只是在熟练地背诵“模板”？

此时，不妨尝试实现一个简单的互信息代理指标来监控其输入依赖性，或者更直接地，在你的训练流程中加入 SNR 感知过滤。这个简单改动，或许就能成为打破训练僵局、让 Agent 真正“活”起来的关键一步。当然，作者也坦言该方法存在局限，例如它依赖奖励方差作为信号代理，在奖励极其稀疏或噪声极大的环境中效果会打折扣。但无论如何，它为我们打开了一扇审视 Agent 训练稳定性的新窗户。