把 AI 塞进“五层大脑”——用打造会“自己动”的智能 Agent
一、开场白:为什么你的 Agent 像“人工智障”?
很多团队做“智能助理”三步走:
- 调个大模型 → 2. 写一堆 if/else → 3. 线上祈祷
结果:
- 需求一改,prompt 崩;
- 工具一多,token 爆;
- 人一多,上下文“串台”。
根本问题:没有把“会思考”当成一块独立的业务领域。
今天用 把 Agent 拆成 5 个互相“喊话”的上下文,让产品、算法、工程终于能坐在一起好好说话。
%% -------------- 图3 极简分层 -----------------
flowchart TD
A([用户输入])
B[交互上下文]
C[感知与理解上下文]
D[规划与推理上下文]
E[记忆与知识上下文]
F[工具与执行上下文]
G([最终结果])
A --> B --> C --> D --> F --> G
D <-->|记忆检索| E
F -->|执行事件| D
B <-->|事件回调| F
%% ----- 样式 -----
classDef core fill:#74b9ff,stroke:#0984e3,stroke-width:2px
classDef mem fill:#55efc4,stroke:#00b894,stroke-width:2px
class D core
class E mem
二、五层大脑总览(图解)
根据系统架构图,我们将智能 Agent 划分为以下五大核心上下文:
| 上下文 | 职责 | 图示模块 | 说明 |
|---|---|---|---|
| 交互上下文 | 管理会话、接收请求、返回结果 | 会话管理、请求管理、消息推送 | 是 Agent 的“门面” |
| 感知与理解上下文 | 多模态输入识别、语义理解 | 图片识别、语种转换、实体识别、合同审核等 | 是 Agent 的“五官” |
| 规划与推理上下文 | 决策、任务分解、流程编排 | ReAct、Workflow、Bot、Prompt 构建、RAG | 是 Agent 的“大脑” |
| 记忆与知识上下文 | 存储与召回历史、知识、用户画像 | 记忆类型、记忆提取、记忆压缩、隐私记忆等 | 是 Agent 的“海马体” |
| 工具与执行上下文 | 工具发现、调用、执行、重试 | 工具路由、工具执行、执行链路记录 | 是 Agent 的“手脚” |
✅ 图示结构清晰,五大上下文通过事件驱动协作,形成一个完整的“感知-思考-执行-反馈”闭环。
三、各上下文“人设”与核心能力
| 上下文 | 人设 | 经典台词 | 关键能力 |
|---|---|---|---|
| 交互 | 前台小姐姐 | “请扫码取号” | 新建会话、任务执行、结果回调、支持 GUI/CUI/消息推送 |
| 感知 | 五官 + 翻译官 | “这话里有杀气” | 多模态识别(图文音视频)、语义识别、实体提取、合同条款理解 |
| 规划 | 军师 | “先调 A 工具,再让 B 子 Agent 补刀” | ReAct 执行器、Workflow 编排、Prompt 动态构建、RAG 检索、自我反思 |
| 记忆 | 海马体 | “你上次把数据库删了” | 场景记忆、语义记忆、程序记忆、隐私记忆、记忆压缩与索引 |
| 执行 | 工具人 | “收到,curl 已发出” | 工具注册与发现、参数绑定、执行策略、重试机制、链路追踪 |
四、核心流程:从“我要报销”到“打款成功”
用户:我要报销
│
▼
【交互】新建会话 → 发送事件:IntentRecognized
│
▼
【感知】识别意图为“报销申请” → 提取金额、发票图片、合同编号
│
▼
【规划】生成执行计划:
Step1: OCR识别发票
Step2: 合同审核
Step3: 检查预算
Step4: 提交报销单
│
▼
【执行】依次调用工具,失败自动重试
│
▼
【记忆】记录用户偏好:“喜欢上传发票后立刻提交”
│
▼
【交互】返回:“报销单已提交,预计 3 天内到账”
✅ 每一步都有事件驱动,支持异步、重试、回滚,系统稳如老狗。
五、技术亮点图解
5.1 多模态感知能力(图二)
- 支持图文音视频输入
- 合同审核、条款识别、风险识别
- 语种转换、语义识别、实体识别
- 与外部系统对接(如用户画像、ERP)
5.2 记忆系统分层设计(图二)
| 类型 | 描述 |
|---|---|
| 场景记忆 | 当前会话上下文 |
| 语义记忆 | 用户偏好、历史意图 |
| 程序记忆 | 常用执行流程 |
| 隐私记忆 | 加密存储,支持遗忘机制 |
支持记忆压缩、索引、召回,解决“长对话 token 爆炸”问题。
5.3 规划引擎:ReAct + Workflow 双引擎
- ReAct:适合探索性任务(如数据查询、问题诊断)
- Workflow:适合固定流程(如审批、报销、合同审核)
- 支持动态路由、自我反思、结果核验、错误分析
六、执行与工具系统:让 Agent“动手”
6.1 工具生命周期
- 注册:开发者用
@Tool注解标记方法 - 发现:规划引擎通过
IToolDiscovery查询可用工具 - 执行:执行器绑定参数、调用、处理结果
- 追踪:记录执行链路、耗时、失败原因
6.2 可靠性保障
- 重试策略:指数退避、最大重试次数可配置
- 熔断降级:模型调用流量控制、降级本地缓存
- 链路追踪:全链路埋点,支持 Jaeger / Zipkin
七、可视化架构图(图三)
┌──────────────────────────────────────────────┐
│ 交互上下文 ◄────────────┐ │
│ 感知与理解上下文 │ │ │
│ 规划与推理上下文 │ 事件流 │ │
│ 记忆与知识上下文 │ │ │
│ 工具与执行上下文 │ │ │
└──────────────────────────────────────────────┘
五大上下文通过事件总线解耦,支持插件式扩展,算法、工程、产品可并行开发。
八、如何落地?团队分工建议
| 角色 | 负责任务 | 时间 |
|---|---|---|
| 产品 | 定义“领域事件”与“用户意图” | 2 天 |
| 算法 | 聚焦感知 & 规划上下文 | 并行 |
| 后端 | 搭建交互 & 执行 & 工具注册 | 3 天 |
| 前端 | 嵌入 SDK,支持 CUI/GUI | 2 天 |
| 运维 | 接入监控、日志、链路追踪 | 1 天 |
九、结语:Agent 不是“大模型 + 胶水”,而是一个“会思考的业务系统”
通过 将智能 Agent 拆分为五大上下文,我们实现了:
✅ 高内聚、低耦合
✅ 支持多模态、多任务、多场景
✅ 算法与工程解耦,产品可快速迭代
✅ 可靠性、可观测性、可扩展性全面覆盖
架构稳了,产品经理再改需求,你也只需:加一个事件,写一个新工具,完事。
十、附录
- 架构图源文件(Mermaid):
%% -------------- 图1 总览 -----------------
flowchart LR
A([用户]) -->|语音/文字/图片| B(交互上下文)
B -->|事件 IntentRecognized| C(感知与理解上下文)
C -->|结构化意图| D(规划与推理上下文)
D -->|执行图| E(工具与执行上下文)
E -->|结果| F(记忆与知识上下文)
F -->|上下文变量| D
E -->|响应事件| B
B -->|最终回复| A
%% ----- 记忆额外反哺感知&规划 -----
F -.->|记忆检索| C
F -.->|记忆召回| D
%% ----- 样式 -----
classDef ctx fill:#ffeaa7,stroke:#fdcb6e,stroke-width:2px
class B,C,D,E,F ctx
- 工具注解示例代码:
@Tool自动注册 Demo - 记忆压缩算法详解:Embedding + LLM 自总结