Agent架构设计

104 阅读5分钟

把 AI 塞进“五层大脑”——用打造会“自己动”的智能 Agent


一、开场白:为什么你的 Agent 像“人工智障”?

很多团队做“智能助理”三步走:

  1. 调个大模型 → 2. 写一堆 if/else → 3. 线上祈祷
    结果:
  • 需求一改,prompt 崩;
  • 工具一多,token 爆;
  • 人一多,上下文“串台”。

根本问题:没有把“会思考”当成一块独立的业务领域
今天用 把 Agent 拆成 5 个互相“喊话”的上下文,让产品、算法、工程终于能坐在一起好好说话。

%% -------------- 图3  极简分层 -----------------
flowchart TD
    A([用户输入])
    B[交互上下文]
    C[感知与理解上下文]
    D[规划与推理上下文]
    E[记忆与知识上下文]
    F[工具与执行上下文]
    G([最终结果])

    A --> B --> C --> D --> F --> G
    D <-->|记忆检索| E
    F -->|执行事件| D
    B <-->|事件回调| F

%% ----- 样式 -----
    classDef core fill:#74b9ff,stroke:#0984e3,stroke-width:2px
    classDef mem fill:#55efc4,stroke:#00b894,stroke-width:2px
    class D core
    class E mem

二、五层大脑总览(图解)

根据系统架构图,我们将智能 Agent 划分为以下五大核心上下文:

上下文职责图示模块说明
交互上下文管理会话、接收请求、返回结果会话管理、请求管理、消息推送是 Agent 的“门面”
感知与理解上下文多模态输入识别、语义理解图片识别、语种转换、实体识别、合同审核等是 Agent 的“五官”
规划与推理上下文决策、任务分解、流程编排ReAct、Workflow、Bot、Prompt 构建、RAG是 Agent 的“大脑”
记忆与知识上下文存储与召回历史、知识、用户画像记忆类型、记忆提取、记忆压缩、隐私记忆等是 Agent 的“海马体”
工具与执行上下文工具发现、调用、执行、重试工具路由、工具执行、执行链路记录是 Agent 的“手脚”

✅ 图示结构清晰,五大上下文通过事件驱动协作,形成一个完整的“感知-思考-执行-反馈”闭环。


三、各上下文“人设”与核心能力

上下文人设经典台词关键能力
交互前台小姐姐“请扫码取号”新建会话、任务执行、结果回调、支持 GUI/CUI/消息推送
感知五官 + 翻译官“这话里有杀气”多模态识别(图文音视频)、语义识别、实体提取、合同条款理解
规划军师“先调 A 工具,再让 B 子 Agent 补刀”ReAct 执行器、Workflow 编排、Prompt 动态构建、RAG 检索、自我反思
记忆海马体“你上次把数据库删了”场景记忆、语义记忆、程序记忆、隐私记忆、记忆压缩与索引
执行工具人“收到,curl 已发出”工具注册与发现、参数绑定、执行策略、重试机制、链路追踪

四、核心流程:从“我要报销”到“打款成功”

用户:我要报销
  │
  ▼
【交互】新建会话 → 发送事件:IntentRecognized
  │
  ▼
【感知】识别意图为“报销申请” → 提取金额、发票图片、合同编号
  │
  ▼
【规划】生成执行计划:
  Step1: OCR识别发票
  Step2: 合同审核
  Step3: 检查预算
  Step4: 提交报销单
  │
  ▼
【执行】依次调用工具,失败自动重试
  │
  ▼
【记忆】记录用户偏好:“喜欢上传发票后立刻提交”
  │
  ▼
【交互】返回:“报销单已提交,预计 3 天内到账”

✅ 每一步都有事件驱动,支持异步、重试、回滚,系统稳如老狗。


五、技术亮点图解

5.1 多模态感知能力(图二)

  • 支持图文音视频输入
  • 合同审核、条款识别、风险识别
  • 语种转换、语义识别、实体识别
  • 与外部系统对接(如用户画像、ERP)

5.2 记忆系统分层设计(图二)

类型描述
场景记忆当前会话上下文
语义记忆用户偏好、历史意图
程序记忆常用执行流程
隐私记忆加密存储,支持遗忘机制

支持记忆压缩、索引、召回,解决“长对话 token 爆炸”问题。

5.3 规划引擎:ReAct + Workflow 双引擎

  • ReAct:适合探索性任务(如数据查询、问题诊断)
  • Workflow:适合固定流程(如审批、报销、合同审核)
  • 支持动态路由、自我反思、结果核验、错误分析

六、执行与工具系统:让 Agent“动手”

6.1 工具生命周期

  • 注册:开发者用 @Tool 注解标记方法
  • 发现:规划引擎通过 IToolDiscovery 查询可用工具
  • 执行:执行器绑定参数、调用、处理结果
  • 追踪:记录执行链路、耗时、失败原因

6.2 可靠性保障

  • 重试策略:指数退避、最大重试次数可配置
  • 熔断降级:模型调用流量控制、降级本地缓存
  • 链路追踪:全链路埋点,支持 Jaeger / Zipkin

七、可视化架构图(图三)

┌──────────────────────────────────────────────┐
│  交互上下文 ◄────────────┐                   │
│  感知与理解上下文 │        │                   │
│  规划与推理上下文 │ 事件流  │                   │
│  记忆与知识上下文 │        │                   │
│  工具与执行上下文 │        │                   │
└──────────────────────────────────────────────┘

五大上下文通过事件总线解耦,支持插件式扩展,算法、工程、产品可并行开发。


八、如何落地?团队分工建议

角色负责任务时间
产品定义“领域事件”与“用户意图”2 天
算法聚焦感知 & 规划上下文并行
后端搭建交互 & 执行 & 工具注册3 天
前端嵌入 SDK,支持 CUI/GUI2 天
运维接入监控、日志、链路追踪1 天

九、结语:Agent 不是“大模型 + 胶水”,而是一个“会思考的业务系统”

通过 将智能 Agent 拆分为五大上下文,我们实现了:

✅ 高内聚、低耦合
✅ 支持多模态、多任务、多场景
✅ 算法与工程解耦,产品可快速迭代
✅ 可靠性、可观测性、可扩展性全面覆盖

架构稳了,产品经理再改需求,你也只需:加一个事件,写一个新工具,完事


十、附录

  • 架构图源文件(Mermaid):
%% -------------- 图1  总览 -----------------
flowchart LR
    A([用户]) -->|语音/文字/图片| B(交互上下文)
    B -->|事件 IntentRecognized| C(感知与理解上下文)
    C -->|结构化意图| D(规划与推理上下文)
    D -->|执行图| E(工具与执行上下文)
    E -->|结果| F(记忆与知识上下文)
    F -->|上下文变量| D
    E -->|响应事件| B
    B -->|最终回复| A

%% ----- 记忆额外反哺感知&规划 -----
    F -.->|记忆检索| C
    F -.->|记忆召回| D

%% ----- 样式 -----
    classDef ctx fill:#ffeaa7,stroke:#fdcb6e,stroke-width:2px
    class B,C,D,E,F ctx
  • 工具注解示例代码:@Tool 自动注册 Demo
  • 记忆压缩算法详解:Embedding + LLM 自总结