推理银行：AI智能体的记忆与策略蒸馏框架谷歌云AI研究团队推出推理银行（ReasoningBank），这是一个新颖的记忆

谷歌云AI研究团队推出推理银行（ReasoningBank）：一个从智能体成功与失败中蒸馏推理策略的记忆框架

当前大多数AI智能体存在一个根本性的“遗忘”问题。无论是部署其浏览网页、解决代码仓库（GitHub）问题，还是操作购物平台，它都会把每个任务当作从未见过的新事物来处理。无论它在同一类型问题上失败了多少次，它都会重复同样的错误。宝贵经验在任务结束时便消失殆尽。

来自某机构AI研究团队、某大学和某大学的研究人员推出了推理银行（ReasoningBank），这是一个记忆框架，它不仅仅记录智能体做了什么——更将某事物成功或失败的原因，蒸馏成可复用、可泛化的推理策略。

现有智能体记忆存在的问题

要理解推理银行的重要性，需要先了解现有智能体记忆的实际作用。两种常见方法是轨迹记忆（用于名为Synapse的系统）和工作流记忆（用于智能体工作流记忆，简称AWM）。轨迹记忆存储原始操作日志——智能体执行的每次点击、滚动和查询。工作流记忆更进一步，仅从成功的运行中提取可复用的分步流程。

两者都存在关键盲点。原始轨迹噪声大、过于冗长，对新任务直接用处不大。工作流记忆仅挖掘成功的尝试，这意味着埋藏在每次失败（而智能体失败次数很多）中的丰富学习信号被完全丢弃。

推理银行的工作原理

推理银行作为一个闭环记忆流程运行，围绕每个完成的任务包含三个阶段：记忆检索、记忆提取和记忆巩固。

在智能体开始新任务前，它使用基于嵌入向量的相似性搜索查询推理银行，以检索最相关的记忆项。这些记忆项会作为额外上下文直接注入智能体的系统提示中。重要的是，默认检索数量k=1，即每个任务只检索一条记忆。消融实验表明，检索更多记忆反而有损性能：成功率从k=1时的49.7%下降到k=4时的44.4%。检索到的记忆质量和相关性远比数量重要。

任务完成后，记忆提取器（由与智能体相同的大语言模型驱动）分析轨迹，并将其蒸馏成结构化的记忆项。每个记忆项包含三个组成部分：标题（简明的策略名称）、描述（一句话摘要）和内容（1-3句蒸馏出的推理步骤或操作洞察）。关键区别在于：提取器对成功和失败的轨迹采用不同处理方式——成功案例贡献已验证的策略，而失败案例提供反事实的陷阱和预防性教训。

为了在测试时无法获得真实标签的情况下判断轨迹是否成功，该系统使用大语言模型即评判器，根据用户查询、轨迹和最终页面状态输出二元的“成功”或“失败”判定。该评判器不需要完美；消融实验表明，即使评判准确率降至70%左右，推理银行仍然稳健。

新的记忆项随后直接追加到推理银行存储库中，以JSON格式维护并预先计算嵌入向量，用于快速的余弦相似性搜索，从而完成整个闭环。

MaTTS：将记忆与测试时缩放相结合

研究团队更进一步，引入了记忆感知的测试时缩放（MaTTS），它将推理银行与测试时计算缩放技术（该技术在数学推理和编程任务中已被证明十分强大）联系起来。

其洞察简单却重要：测试时缩放会为同一任务生成多条轨迹。MaTTS并非只选取最佳答案而丢弃其余，而是利用完整的轨迹集合作为丰富的对比信号用于记忆提取。

MaTTS有两种方式。并行缩放为同一查询生成k条独立轨迹，然后使用自对比——比较所有轨迹中正确和错误的做法——来提取更高质量、更可靠的记忆项。顺序缩放则通过自优化迭代地优化单条轨迹，将中间修正和洞察作为记忆信号捕获。

其结果是一个正反馈循环：更好的记忆引导智能体走向更有前景的执行路径，而更丰富的执行路径则锻造出更强大的记忆。论文指出，当k=5时，在WebArena购物任务上，并行缩放（成功率55.1%）略优于顺序缩放（成功率54.5%）——顺序缩放一旦模型达到决定性的成功或失败后收益会迅速饱和，而并行缩放则能持续提供多样化的执行路径，供智能体对比和学习。

在三个基准测试上的结果

在WebArena（涵盖购物、管理、GitLab和Reddit任务的网页导航基准）、Mind2Web（测试跨任务、跨网站、跨领域泛化能力）以及SWE-Bench-Verified（包含500个已验证实例的仓库级软件工程基准）上进行测试后，推理银行在所有三个数据集和所有测试的基础模型上，均一致地优于所有基线方法。

在WebArena上使用某Gemini-2.5-Flash模型时，推理银行相比无记忆基线将总体成功率提高了8.3个百分点（从40.5%提升至48.8%），同时与无记忆相比平均交互步数最多减少1.4步，与其他记忆基线相比最多减少1.6步。效率提升在成功轨迹上最为显著——以购物子集为例，推理银行将成功完成任务所需的步数减少了2.1步（相对减少26.9%）。智能体能更快找到解决方案，是因为它知道正确的路径，而不仅仅是因为它更早地放弃了失败的尝试。

在Mind2Web上，推理银行在跨任务、跨网站和跨领域的评估划分中均带来了持续的性能提升，其中在跨领域场景（需要最高程度的策略迁移，而AWM等竞争方法相比无记忆基线实际上性能会下降）下改进最为显著。

在SWE-Bench-Verified上，结果因基础模型不同而有显著差异。使用某Gemini-2.5-Pro模型时，推理银行达到了57.4%的解决率，而无记忆基线为54.0%，每个任务节省1.3步。使用某Gemini-2.5-Flash模型时，步数节省更为显著——每个任务减少2.8步（从30.3步降至27.5步），同时解决率从34.2%提升至38.8%。

加入MaTTS（并行缩放，k=5）进一步提升了结果。在WebArena上使用某Gemini-2.5-Pro模型时，带MaTTS的推理银行达到了56.3%的总体成功率（无记忆基线为46.7%），同时平均步数从每个任务8.8步减少到7.1步。

涌现的策略演化

最引人注目的发现之一是：推理银行的记忆并非静态不变——它会演化。在一个记录的案例分析中，智能体针对“用户特定信息导航”策略的初始记忆项类似于简单的程序性检查清单：“主动查找并点击‘下一页’、‘第X页’或‘加载更多’链接”。随着智能体积累经验，同样的记忆项会成熟为适应性自我反思，进而演变为系统的任务前检查，最终成为组合式策略，例如“定期将当前视图与任务需求进行交叉对照；如果当前数据与预期不符，重新评估可用选项，如搜索过滤器和替代区域”。研究团队将这种现象描述为类似于强化学习动态的涌现行为——完全发生在测试时，无需任何模型权重更新。

关键要点

失败终于成为了学习信号：与仅从成功轨迹中学习的现有智能体记忆系统（如Synapse、AWM）不同，推理银行同时从成功和失败中蒸馏出可泛化的推理策略——将错误转化为未来任务的预防性护栏。
记忆是结构化的，而非原始数据：推理银行不存储混乱的操作日志。它将经验压缩成结构清晰的三部分记忆项（标题、描述、内容），这些记忆项对人类可解释，并能通过基于嵌入向量的相似性搜索直接注入智能体的系统提示中。
检索中质量胜于数量：最优检索数量是k=1，每个任务仅一条记忆。检索更多记忆会逐步损害性能（k=1时成功率为49.7%，k=4时降至44.4%），因此检索到的记忆相关性比数量更重要。
记忆与测试时缩放形成良性循环：MaTTS（记忆感知的测试时缩放）利用多样化的探索轨迹作为对比信号，锻造出更强大的记忆，而这些记忆反过来又能引导更好的探索——这一反馈循环将WebArena上的成功率推至56.3%（使用某Gemini-2.5-Pro模型），而无记忆基线仅为46.7%。FINISHED