Factored Agents---解耦学习与记忆,LLMs和小模型协同工作

740 阅读11分钟

写在前面

近年来,大型语言模型(Large Language Models, LLMs)已经成为智能助手(AI Assistant)和多工具 Agent 系统的核心支撑技术。
它们能够理解自然语言、进行复杂推理、并通过外部工具完成任务。然而,现有大多数智能体架构采用单体式(monolithic)设计:同一个模型同时承担理解用户意图、规划任务执行、生成工具调用、解析返回结果等全部职责。

这种设计虽然简洁,但在实践中暴露出严重的稳定性与可维护性问题。例如:

  • 生成的工具调用常常存在字段缺失或类型错误;
  • 面对新接口或接口更新时,模型容易“猜格式”;
  • 推理与记忆相互干扰,在复杂任务中表现不稳定;
  • 新增或修改工具时需要重新微调整个模型。

Factored Agents: Decoupling In-Context Learning and Memorization for Robust Tool Use》这篇论文针对上述问题,提出了一种新的智能体设计范式——Factored Agents(因式分解型代理)
它通过将“推理/规划”(reasoning/planning)与“记忆/工具调用”(memorization/tool use)显式分离,使模型在灵活性与稳定性之间取得平衡,从而构建出更鲁棒、更可维护、更可扩展的智能体系统。

实验结果显示,Factored Agents 框架在工具调用准确性、一致性和可解释性方面全面超越传统单体模型,为下一代智能助手的系统化设计提供了新的方向。


论文标题

Factored Agents: Decoupling In-Context Learning and Memorization for Robust Tool Use

论文作者

Archit Sharma, Siqi Sun, Daniel Tarlow, Jacob Andreas, Tatsunori Hashimoto, Yejin Choi, Scott Yih 等

论文单位

Google DeepMind, MIT, University of Washington, Microsoft Research 等

论文链接

arxiv.org/abs/2410.05…


研究背景与动机

当前智能助手和多工具系统在快速发展,但其基础仍是“大模型 + Prompt 工程”的单体化思路。
这样的系统虽然在理解自然语言方面表现出色,但在**稳定工具使用(robust tool use)**上仍面临挑战。作者总结了三个核心问题:

  1. 调用不稳定性:生成的 API JSON 调用经常存在语法或语义错误;
  2. 接口记忆脆弱性:面对新接口或字段变化时,模型容易出现“幻觉式调用”;
  3. 推理-记忆干扰:模型在任务规划和参数格式化之间反复“卡壳”,影响多轮任务执行。

学术界已有一些“工具使用训练”或“函数调用微调”尝试,但这些方法仍依赖单一模型在同一权重空间内同时处理“推理(灵活)”与“记忆(精确)”任务。
这就导致了天然的冲突:推理需要上下文适应性,而记忆追求稳定与确定性。二者混合后,模型在长任务、多工具调用场景下极易退化。

因此,作者认为,构建一个稳健的智能体系统,关键在于**“解耦(decoupling)”**——让推理和记忆分离建模,各司其职。


Factored Agents 方法概述

论文提出的 Factored Agents 框架以“职责分离”为核心,通过模块化设计,将智能体拆分为两个协同组件:

  • Planner(规划器):负责理解用户意图、制定执行计划;
  • Tool Agent / Memorizer(工具代理):负责工具记忆、参数填充和接口调用。

这种设计使系统在结构上实现了解缠,既保持了推理的灵活性,又提升了工具调用的准确性和可扩展性。


image.png

图 1. Factored Agents 总体架构

图 1 展示了系统的整体流程:

  1. 用户输入由 Prompt Generator 整合上下文、工具列表等信息;
  2. Planner(通常是大模型,如 GPT-4)负责推理与规划,生成中间表示(Intermediate Representation, IR),描述“要做什么”;
  3. Tool Agent(可为较小模型)根据 schema 记忆,将 Planner 的输出转化为精确的 API 调用;
  4. 执行调用并返回结果,再由 Planner 进行后续决策或生成最终回答。

这种“规划—执行—反馈”循环构成了系统的闭环工作流。


理论动机:推理与记忆的“解缠”

作者从模型认知机制出发,区分了两种核心能力:

  • In-Context Learning(ICL):模型基于上下文即时学习和迁移的短期推理能力;
  • Memorization:模型在训练中形成的长期知识与格式记忆。

在单体模型中,这两种能力混合在同一参数空间,导致灵活性和稳定性互相牵制。
Factored Agents 则通过“物理解耦”的方式,让:

  • Planner 专注动态语义推理;
  • Tool Agent 专注 schema 记忆与结构化生成。

从而在系统层面实现认知功能的分离,使语言模型的“思考”与“执行”更契合各自特性。


对比设计:单体式模型 vs. 因式分解模型

模型类型组成结构优点缺点
Monolithic LLM单一模型负责推理与调用结构简单、部署方便易出错、不可解释、维护成本高
Factored Agents分离 Planner 与 Tool Agent高鲁棒性、可解释、易扩展需额外协调机制

通过这种“解缠”式架构,系统不仅在功能上更稳健,还天然具备可模块化维护与演化的能力。


数据与训练方法

1. 自动化数据合成

为了高效训练 Tool Agent,作者提出了一个基于工具 schema 的数据生成流程:

  1. 提取工具 schema 的字段与约束;
  2. 通过模板生成多样化的自然语言调用意图;
  3. 形成「自然语言 → 结构化调用」的训练样本;
  4. 在此数据上微调小规模 Tool Agent 模型。

示例:

自然语言意图结构化调用
“帮我查一下明天从北京到上海的航班”{ "tool": "flight.search", "origin": "Beijing", "destination": "Shanghai", "date": "2025-10-12" }

该方法使得训练样本生成过程可扩展至任意工具 schema,显著降低人工标注成本。


2. 模型配置

  • Planner:使用大型语言模型(如 GPT-4o),负责推理与计划生成;
  • Tool Agent:使用 1B–3B 参数级小模型,微调于自动合成数据;
  • 通信方式:两者通过自然语言或中间表示(IR)交互;
  • 执行机制:Tool Agent 负责 API 调用并将结果返回给 Planner。

实验设置

论文在三个维度上评估了 Factored Agents 的性能:

  1. 工具调用任务(TauBench):测试结构化调用的合法率与执行成功率;
  2. 推理与泛化(GSM8K、BBH):验证解耦后是否保持推理能力;
  3. 重复一致性测试(Passⁿ):评估模型多次执行同一任务的稳定性。

实验结果与分析

表 1 展示了 Factored Agents 与传统单体模型的比较结果:

指标Factored AgentsMonolithic 模型
工具调用成功率↑ 18–25%基准
结构化调用合法率≈ 100%≈ 80%
Pass⁵ 一致性高一致性明显波动
GSM8K 准确率基本持平
BBH 任务泛化略优

分析结果表明:

  • Factored 架构在工具调用任务中显著优于单体模型,尤其在多轮调用和接口变更情况下;
  • 推理任务性能未受影响,说明解耦并未削弱模型的上下文学习能力;
  • 重复一致性指标提升显著,体现出系统的高鲁棒性。

论文创新与贡献

创新点内容说明意义
推理与记忆解耦将 reasoning 与 memorization 独立建模提升系统稳定性与可维护性
轻量 Tool Agent小模型记忆工具 schema降低出错率与计算成本
自动合成数据机制基于 schema 自动生成训练样本减少人工标注需求
Passⁿ 一致性测试引入量化指标评估多轮鲁棒性提供系统化评估框架
理论分析从 ICL 与记忆的互补性解释解耦合理性提供认知层面的设计依据

从理论到实践

这篇论文的理论与实验成果,对当前智能助手(AI Assistant)研发具有直接的工程启示。
其核心思想不仅是对模型架构的改进,更是一种系统化设计理念的转变——从“模型驱动”走向“架构驱动”。

(1)从“黑箱助手”到“可解释助手”

传统智能助手往往是一个“大黑箱”:输入用户指令,输出操作结果。
内部决策过程不透明,出现错误时难以诊断。
Factored 架构通过明确分离 Planner(思考)与 Tool Agent(执行),让智能助手具备“可解释的决策链”:

  • 可以清楚追踪系统在每一步“想做什么”;
  • 错误可归因:是规划出错,还是调用出错;
  • 便于工程调试、日志分析与版本验证。

这对企业级、金融、政务等对稳定性和透明性要求高的场景尤为重要。

(2)提升工具调用助手的可靠性

现实中的智能助手常需执行结构化任务,如预订机票、创建日程、查询库存等。
这些任务容错率极低,任何格式错误都可能导致失败。
Factored 架构通过 Tool Agent 的专职记忆与校验机制,使:

  • 调用参数始终符合接口规范;
  • 字段名、类型、默认值等保持一致;
  • 新接口的兼容更新更高效。

这使得智能助手在工具调用层从“概率式成功”转向“可验证成功”,实现从实验性系统向生产级系统的跨越。

(3)支撑多工具生态下的扩展性

现代智能助手往往面对动态增长的工具生态(搜索、邮件、知识库、CRM 等)。
单体模型难以适应这种复杂度。
Factored 思想提供了一种插件化扩展路径:

  • 每个新工具只需新增或微调对应的 Tool Agent;
  • Planner 无需重新训练;
  • 系统能快速吸纳新功能而不破坏旧结构。

这对于企业助手、跨业务 Copilot 等需要长期演进的系统,意义重大。

(4)降低维护与版本演化成本

在真实工程中,API 与接口 schema 经常更新。
Factored 结构将更新影响局限在 Tool Agent 层,主模型(Planner)无需改动。
这一机制极大降低了维护成本与停机风险,让智能助手具备“可持续适应”的能力。

(5)提升鲁棒性与抗幻觉能力

论文实验表明,Factored 架构对模糊指令、噪声输入更具稳健性。
在实际使用中,用户表达往往不完整或不规范。
分层结构让:

  • Planner 负责语义消歧;
  • Tool Agent 负责结构化落地;

从而避免因幻觉生成而触发错误调用,使助手在理解不完全的情况下仍能稳定执行核心意图。

(6)构建多轮协作式智能助手的基础

智能助手正从“一问一答”演化为“多轮协作体”:
需要规划、执行、校正、汇总等多个阶段。
Factored 架构天然支持这种多步推理循环。
Planner 制定任务计划,Tool Agent 执行并反馈,Planner 再根据结果迭代。
这种“思考—执行—反思”模式使系统具备自校正能力,为真正具备任务自治性的助手奠定基础。


局限与未来方向

作者也指出了当前研究的局限与潜在改进方向:

  • Planner 与 Tool Agent 的通信仍以自然语言为主,未来可探索标准化中间表示(IR/DSL);
  • 引入交互式确认机制,提升不确定场景下的任务成功率;
  • 结合日志反馈实现 Tool Agent 的在线学习与自适应更新;
  • 扩展为多层级 Planner 架构,以支持更复杂的长期推理。

这些方向不仅具有学术价值,也为智能助手产品化提供了演化路径。


总结

本文带领大家阅读了论文
Factored Agents: Decoupling In-Context Learning and Memorization for Robust Tool Use》。

作者通过对大型语言模型的认知机制分析,揭示了“推理(ICL)”与“记忆(Memorization)”的冲突本质,并提出了一个结构化的解决方案——Factored Agents 架构
该方法在系统层面实现了推理与记忆的显式分离,使模型在保持灵活推理能力的同时,显著提升了工具使用的准确性与稳定性。

自动评测与人工评测结果均表明:

Factored Agents 架构在多语言、多任务环境下具备良好的通用性、可扩展性与工程落地性。

这项工作不仅提供了一种新的模型框架,更代表了智能助手的设计理念正从**“模型驱动”转向“架构驱动”**——
让智能体从“靠记忆生存”走向“靠结构成长”,
从“生成系统”迈向“认知系统”。