推理银行:AI智能体的记忆与策略蒸馏框架

2 阅读8分钟

谷歌云AI研究团队推出推理银行(ReasoningBank):一个从智能体成功与失败中蒸馏推理策略的记忆框架

当前大多数AI智能体存在一个根本性的“遗忘”问题。无论是部署其浏览网页、解决代码仓库(GitHub)问题,还是操作购物平台,它都会把每个任务当作从未见过的新事物来处理。无论它在同一类型问题上失败了多少次,它都会重复同样的错误。宝贵经验在任务结束时便消失殆尽。

来自某机构AI研究团队、某大学和某大学的研究人员推出了推理银行(ReasoningBank),这是一个记忆框架,它不仅仅记录智能体做了什么——更将某事物成功或失败的原因,蒸馏成可复用、可泛化的推理策略。

现有智能体记忆存在的问题

要理解推理银行的重要性,需要先了解现有智能体记忆的实际作用。两种常见方法是轨迹记忆(用于名为Synapse的系统)和工作流记忆(用于智能体工作流记忆,简称AWM)。轨迹记忆存储原始操作日志——智能体执行的每次点击、滚动和查询。工作流记忆更进一步,仅从成功的运行中提取可复用的分步流程。

两者都存在关键盲点。原始轨迹噪声大、过于冗长,对新任务直接用处不大。工作流记忆仅挖掘成功的尝试,这意味着埋藏在每次失败(而智能体失败次数很多)中的丰富学习信号被完全丢弃。

推理银行的工作原理

推理银行作为一个闭环记忆流程运行,围绕每个完成的任务包含三个阶段:记忆检索、记忆提取和记忆巩固

在智能体开始新任务前,它使用基于嵌入向量的相似性搜索查询推理银行,以检索最相关的记忆项。这些记忆项会作为额外上下文直接注入智能体的系统提示中。重要的是,默认检索数量k=1,即每个任务只检索一条记忆。消融实验表明,检索更多记忆反而有损性能:成功率从k=1时的49.7%下降到k=4时的44.4%。检索到的记忆质量和相关性远比数量重要。

任务完成后,记忆提取器(由与智能体相同的大语言模型驱动)分析轨迹,并将其蒸馏成结构化的记忆项。每个记忆项包含三个组成部分:标题(简明的策略名称)、描述(一句话摘要)和内容(1-3句蒸馏出的推理步骤或操作洞察)。关键区别在于:提取器对成功和失败的轨迹采用不同处理方式——成功案例贡献已验证的策略,而失败案例提供反事实的陷阱和预防性教训。

为了在测试时无法获得真实标签的情况下判断轨迹是否成功,该系统使用大语言模型即评判器,根据用户查询、轨迹和最终页面状态输出二元的“成功”或“失败”判定。该评判器不需要完美;消融实验表明,即使评判准确率降至70%左右,推理银行仍然稳健。

新的记忆项随后直接追加到推理银行存储库中,以JSON格式维护并预先计算嵌入向量,用于快速的余弦相似性搜索,从而完成整个闭环。

MaTTS:将记忆与测试时缩放相结合

研究团队更进一步,引入了记忆感知的测试时缩放(MaTTS),它将推理银行与测试时计算缩放技术(该技术在数学推理和编程任务中已被证明十分强大)联系起来。

其洞察简单却重要:测试时缩放会为同一任务生成多条轨迹。MaTTS并非只选取最佳答案而丢弃其余,而是利用完整的轨迹集合作为丰富的对比信号用于记忆提取。

MaTTS有两种方式。并行缩放为同一查询生成k条独立轨迹,然后使用自对比——比较所有轨迹中正确和错误的做法——来提取更高质量、更可靠的记忆项。顺序缩放则通过自优化迭代地优化单条轨迹,将中间修正和洞察作为记忆信号捕获。

其结果是一个正反馈循环:更好的记忆引导智能体走向更有前景的执行路径,而更丰富的执行路径则锻造出更强大的记忆。论文指出,当k=5时,在WebArena购物任务上,并行缩放(成功率55.1%)略优于顺序缩放(成功率54.5%)——顺序缩放一旦模型达到决定性的成功或失败后收益会迅速饱和,而并行缩放则能持续提供多样化的执行路径,供智能体对比和学习。

在三个基准测试上的结果

WebArena(涵盖购物、管理、GitLab和Reddit任务的网页导航基准)、Mind2Web(测试跨任务、跨网站、跨领域泛化能力)以及SWE-Bench-Verified(包含500个已验证实例的仓库级软件工程基准)上进行测试后,推理银行在所有三个数据集和所有测试的基础模型上,均一致地优于所有基线方法。

在WebArena上使用某Gemini-2.5-Flash模型时,推理银行相比无记忆基线将总体成功率提高了8.3个百分点(从40.5%提升至48.8%),同时与无记忆相比平均交互步数最多减少1.4步,与其他记忆基线相比最多减少1.6步。效率提升在成功轨迹上最为显著——以购物子集为例,推理银行将成功完成任务所需的步数减少了2.1步(相对减少26.9%)。智能体能更快找到解决方案,是因为它知道正确的路径,而不仅仅是因为它更早地放弃了失败的尝试。

在Mind2Web上,推理银行在跨任务、跨网站和跨领域的评估划分中均带来了持续的性能提升,其中在跨领域场景(需要最高程度的策略迁移,而AWM等竞争方法相比无记忆基线实际上性能会下降)下改进最为显著。

在SWE-Bench-Verified上,结果因基础模型不同而有显著差异。使用某Gemini-2.5-Pro模型时,推理银行达到了57.4%的解决率,而无记忆基线为54.0%,每个任务节省1.3步。使用某Gemini-2.5-Flash模型时,步数节省更为显著——每个任务减少2.8步(从30.3步降至27.5步),同时解决率从34.2%提升至38.8%。

加入MaTTS(并行缩放,k=5)进一步提升了结果。在WebArena上使用某Gemini-2.5-Pro模型时,带MaTTS的推理银行达到了56.3%的总体成功率(无记忆基线为46.7%),同时平均步数从每个任务8.8步减少到7.1步。

涌现的策略演化

最引人注目的发现之一是:推理银行的记忆并非静态不变——它会演化。在一个记录的案例分析中,智能体针对“用户特定信息导航”策略的初始记忆项类似于简单的程序性检查清单:“主动查找并点击‘下一页’、‘第X页’或‘加载更多’链接”。随着智能体积累经验,同样的记忆项会成熟为适应性自我反思,进而演变为系统的任务前检查,最终成为组合式策略,例如“定期将当前视图与任务需求进行交叉对照;如果当前数据与预期不符,重新评估可用选项,如搜索过滤器和替代区域”。研究团队将这种现象描述为类似于强化学习动态的涌现行为——完全发生在测试时,无需任何模型权重更新。

关键要点

  • 失败终于成为了学习信号:与仅从成功轨迹中学习的现有智能体记忆系统(如Synapse、AWM)不同,推理银行同时从成功和失败中蒸馏出可泛化的推理策略——将错误转化为未来任务的预防性护栏。
  • 记忆是结构化的,而非原始数据:推理银行不存储混乱的操作日志。它将经验压缩成结构清晰的三部分记忆项(标题、描述、内容),这些记忆项对人类可解释,并能通过基于嵌入向量的相似性搜索直接注入智能体的系统提示中。
  • 检索中质量胜于数量:最优检索数量是k=1,每个任务仅一条记忆。检索更多记忆会逐步损害性能(k=1时成功率为49.7%,k=4时降至44.4%),因此检索到的记忆相关性比数量更重要。
  • 记忆与测试时缩放形成良性循环:MaTTS(记忆感知的测试时缩放)利用多样化的探索轨迹作为对比信号,锻造出更强大的记忆,而这些记忆反过来又能引导更好的探索——这一反馈循环将WebArena上的成功率推至56.3%(使用某Gemini-2.5-Pro模型),而无记忆基线仅为46.7%。FINISHED