单智能体 vs 多智能体：如何抉择？最近，AI 社区中关于构建智能体 (Agent) 正确方式的争论，因 Cogniti

最近，AI 社区中关于构建智能体 (Agent) 正确方式的争论，因 Cognition 公司的文章 "不要构建多智能体系统" (cognition.ai/blog/dont-b…) 和 Anthropic 公司的文章 "我们如何构建多智能体研究系统" (www.anthropic.com/engineering…) 而愈演愈烈。尽管两篇文章标题针锋相对，但其核心观点却惊人地一致。选择单智能体还是多智能体系统，并非意识形态之争，而在于为合适的任务选择合适的工具。

在深入探讨之前，我们先来下一个简单的定义。

什么是单智能体 (Single Agent)？

单智能体系统以 “单一进程” 的方式运作。你可以把它想象成一个高度专注的员工，从头到尾独立完成一项任务。它会维持一条连续的思维 (记忆) 和行动 (工具) 链条，以确保每一步都基于之前的所有信息。

图片来源: Cognition - 不要构建多智能体系统

主要特点:

优点:

缺点:

多智能体系统就像一个团队。它通常包含一个 “主智能体” (lead agent) ，负责将大目标分解为小任务，再分配给多个可并行操作的 “工作智能体” (worker agent) 。

主要特点:

优点:

缺点:

*注意: *值得一提的是，还有其他类型的多智能体模式，例如，不设 “主智能体” 的 “蜂群” (swarm) 模式。在这种模式下，智能体以更接近点对点的方式协作解决问题。它兼具单智能体 (如统一上下文) 和多智能体 (如独立指令) 的特点，但同时也面临着其特有的挑战。

方面	单智能体系统	多智能体系统
上下文管理	连续，无信息丢失	需要复杂的共享机制
执行速度	顺序执行	并行执行
词元 (token) 使用量	聊天交互的 4 倍	聊天交互的 15 倍
可靠性	高，结果可预测	较低，可能出现意外的涌现行为
调试难度	相对直接	复杂，具有非确定性
最佳适用场景	顺序执行、依赖状态的任务 (“写入型” 任务)	可并行处理、探索性的任务 (“读取型” 任务)
协调需求	无需协调	成功的关键因素
应用案例	重构代码库，撰写详细报告。	研究广阔的市场趋势，例如找出标普500指数 (S&P 500) 公司的所有董事会成员。
核心优势	上下文的连续性与高可靠性	并行处理能力与可扩展性
主要挑战	上下文窗口限制与顺序执行的速度瓶颈	上下文碎片化与协调的复杂性

尽管两者看似对立，但要构建可靠的智能体系统，都需要遵循一些共同的原则。

上下文工程是重中之重: 成功的关键在于构建一个能为可靠决策在正确的时间动态维护正确信息的系统。这远不止是提示工程那么简单。
“读取型” vs. “写入型”智能体: 真正的区别不在于单智能体还是多智能体，而在于你的任务主要是读取 (研究、分析、信息收集) 还是写入 (代码生成、内容创作、文件编辑) 。
- 读取任务 更容易并行化，因此更适合多智能体系统。
- 写入任务 并行化时会引发协调难题，因此更适合单智能体。
- 混合任务 在架构设计上应将读取和写入阶段分开。
可靠的智能体需要不同的工具栈: 构建可靠的智能体，仅有好的模型是远远不够的。它还需要强大的基础设施来实现持久化执行 (以应对故障) 、良好的可观测性 (以调试行为) ，以及科学的评估体系 (以衡量真正重要的指标) 。
经济可行性与模型迭代: 模型自身正以惊人的速度进步。不要为了解决今天的问题而过度设计，因为一个更简单的方案或许在明天就能轻松搞定。