Day 7|如何构建一个可扩展的智能体系统?

56 阅读5分钟

多 Agent 协作、记忆系统、持续执行,是从 Demo 到产品的关键

大多数智能体都是短命的:执行一个任务就结束。 真正能上线的智能体系统必须具有“持续性、协作性、扩展性”。

前 6 天,我们已经构建了:

  • 标准化的 Prompt 套件

  • Planner(规划器)

  • Tool Router (工具路由)

  • Executor(执行器)

今天,我们把智能体从“单一体”扩展到“系统级智能”。

我们的目标是:

构建一个 多 Agent 协作 + 记忆系统 + 持续执行 的完整框架。

这就是大型 AI 公司、Agent 平台(CrewAI、OpenAI Slate、AutoGen、LangGraph)正在做的事。

⭐ Part 1:为什么单 Agent 永远做不好复杂任务?

你让Agent 做复杂任务:

  • 写文章
  • 写代码
  • 自测

实际上得到的结果可能是会:

  • 串行执行超慢
  • 频繁错误
  • 任务容易中断
  • 逻辑混乱
  • 记忆缺失
  • 长任务无法持续

这是为什么?其实原因只有一个:

GPT 再强,它本质是语言模型,不是任务执行引擎。

要解决复杂任务,必须引入这三个核心能力:

⭐ Part 2:可扩展智能体系统的“三件套”

一个工程可行的智能体系统,必须包含:

① 多 Agent 协作

每个 Agent 擅长一类任务。 类似公司里的:

  • 策划
  • 技术
  • QA
  • PM
  • 数据分析
  • 文案
  • 运营

每个 Agent 明确职责,之间通过协议通信。

② 记忆系统

分为三类

  • 短期记忆(当前任务上下文)
  • 长期记忆(知识库)
  • 情节记忆(每次执行的历史)

记忆决定了智能体能否做到:

  • 多轮持续执行
  • 在下一次执行中复用历史
  • 任务中断后恢复
  • 用户偏好定制化

③ 持续执行

一个AI智能体可以:

  • 运行 10 分钟
  • 运行 24 小时
  • 运行几天
  • 定时运行
  • 监听事件后自动触发

例如:

  • 每天总结公司日报
  • 监控价格变动自动通知
  • 自动抓取并更新数据
  • 每周生成博客并发布
  • 自动检查服务状态

这三件套,决定了你的智能体是不是“玩具”。

⭐ Part 3:多 Agent 协作怎么设计?

业界最成熟的模型:Manager 负责拆任务,Worker 负责执行子任务。

非常像 Day 4 的 Planner,但放大了 10 倍。

来看架构图:

        ┌─────────────┐
        │   Manager   │  ← 任务分解、全局控制
        └──────┬──────┘
               │
 ┌─────────────┼─────────────┐
 │             │             │
 ▼             ▼             ▼
Coder      Researcher     QA Agent
Writer     Data Agent     Browser Bot

Manager 不执行具体任务,它只负责:

  • 拆解任务
  • 分配任务
  • 综合 Worker 的结果
  • 做最终输出

Worker 的职责非常明确:

  • 只做自己擅长的那一件事
  • 不能跨界
✨ Worker 例子
  1. Researcher Agent(检索 + 整理信息)

Prompt: 「只能搜索、只能总结,不得生成虚构信息。」 2. #### Writer Agent(文案写作) Prompt: 「你的任务是自然语言写作,不能搜索,不能跑工具。」 3. #### Coder Agent(代码生成与修复) Prompt: 「你负责代码实现,必须输出完整文件,不得输出多余解释。」 4. #### QA Agent(验证输出) Prompt: 「你负责找到错误,必须指出问题所在位置,不得客套。」

⭐ Part 4:记忆系统——智能体的灵魂

没有记忆的智能体无法持久执行。一个可扩展系统必须具备三类记忆:

① 短期记忆

包含:

  • 当前任务
  • 上下文
  • 最近 3–5 轮消息
  • 中间工具调用结果

它不存盘,只保留在“当前会话”循环。

长期记忆

用于:

  • 用户偏好
  • 可复用知识
  • 应用配置
  • 历史经验

最佳实现:

  • pgvector
  • chroma
  • milvus

其中 pgvector 是最稳定的选择。

③ 情节记忆

记录:

  • 每一次执行的轨迹
  • 每个 step 的输入/输出
  • 中间状态
  • 错误信息
  • 最终结果

非常重要。它让智能体具备:

  • 回溯能力
  • 重放能力
  • 自动 debug 能力
  • 持续执行能力

⭐ Part 5:持续执行框架

你需要构建一个“智能体事件循环(Agent Event Loop)”,它要具备:

① 异步执行(async)

智能体可以

  • 搜索
  • 等待外部 API
  • 执行计划
  • 写文件
  • 继续下一步

这是最底层的能力。

② 状态持久化

每一步必须存数据库。

否则:

  • 任务崩溃就没救
  • 无法断点续跑
  • 无法长时间运行

③ Resume(恢复机制)

崩溃后能够恢复:

  • 上一轮输出
  • 上一工具参数
  • 中间状态
  • Planner 上下文

④ 计划动态更新(Dynamic Planning)

长任务无法提前规划所有步骤。

智能体必须:

  • 每完成一段
  • 就重新规划下一段

这就是 LangGraph、CrewAI 的核心思路。

⑤ 外部事件触发(Event-driven Agent)

非常适合:

  • 飞书回调
  • GitHub webhook
  • 定时任务
  • 数据库监听
  • API 通知

⭐ Part 6:可扩展 Agent 系统的完整架构图

                 ┌────────────────────────────┐
                 │         Controller         │
                 │ (任务入口、权限、安全、限流)    │
                 └───────────────┬────────────┘
                                 │
                                 ▼
                    ┌─────────────────────┐
                    │       Manager       │
                    │  (分解、调度、合并)    │
                    └─────────┬───────────┘
                              │
         ┌────────────────────┼────────────────────┐
         ▼                    ▼                    ▼
   Researcher           Coder Agent           Writer Agent
   Browser Bot          QA Agent              Data Agent
         │                    │                    │
         └──────────┬─────────┴──────────┬─────────┘
                    ▼                   ▼
             ┌──────────────┐   ┌──────────────┐
             │ Memory Store │   │ State Store  │
             └──────────────┘   └──────────────┘

这是一个可扩展、可维护、可持续运行的大型智能体体系。

⭐ Part 7:最佳实践总结

✔ 1. Agent 要小而专

不要写大而杂的 Agent。职责越清晰 → 稳定性越高。

✔ 2. 状态必须实时存储

内存 Agent 一定会崩。

✔ 3. Plan 必须动态更新

长任务不可能一次性规划好。

✔ 4. 记忆是核心

没有记忆的 Agent = 临时工。

✔ 5. 多 Agent 要有主控(Manager)

不然整个系统会“撞车”。

到今天为止,我们已经搭建了一个完整、专业、可上线的智能体系统:

  • 任务规划
  • 工具选择
  • 执行器
  • 状态存储
  • 记忆系统
  • 多 Agent 协作
  • 持续执行架构

这套能力足以让你的智能体从传统的“LLM Demo”,升级到:

一个真正可持续运行的 AI 系统。