感谢活动组织:Datawhale - 《Agent设计模式》共学营
学习资料:www.datawhale.cn/activity/54…
一句话总结:在《Agent设计模式》一书中认为,Agent 的核心在于
感知-推理-行动循环。
如果说传统的 MVC 框架或微服务框架是 输入-处理-输出 这样的线性流程,那么 Agent 则是将处理过程变成了一个循环,在循环过程中向外输出。与此同时,输入不仅仅来自人类,也来自外部的环境和工具。
关于感知
Agent 中进行感知的包含3部分:注意力、预测、语义化
- 注意力会对上下文进行筛选,即筛选已知输入内容
- 预测具有不确定性,预测结果和现实的差异也会变为下一次输入内容的感知。其中的差异也叫惊奇点 Surprise
- 语义化则是将生成内容的特征转换为实际意义
关于推理 - 快思考与慢思考
神经科学家将人类的思考分为系统1和系统2,分别对应快思考和慢思考,Agent 也与之相似:
| Agent 行为 | 特征 | |
|---|---|---|
| 快思考 | 直接生成回答 | 速度快,成本低,易出现幻觉 |
| 慢思考 | 通过 chain of thought | 速度慢,成本高,逻辑性强,可靠性高 |
Agent 推理的4个层次
- 情境理解 Situation Awareness:理解长期记忆的内容、上下文、当前任务场景
- 经验检索 Memory Retrieval:检索长期记忆(个人认为还包括外部资源如知识库)
- 心智模拟 Mental Simulation:模拟各种行为(包含各种尝试)
- 决策与置信度 Decision & Confidence (个人认为此处的 confidence 在原书中翻译为“信心”并不准确,且容易引发读者误解)
关于行动 - 用于改变和反馈
行动的3部分:
- 行动性认知:行动即实验
- 目的性行动:副作用是必须的
- 闭环行动:执行-验证-纠偏
OODA Observe-Orient-Decide-Act
OODA的策略同样适用于 Agent 领域:
| Observe | Orient | Decide | Act | |
|---|---|---|---|---|
| 理论 | 观察 | 定位 | 推理 | 行动 |
| Agent 领域 | 获取上下文 | 从记忆+上下文中筛选信息 | 规划 | 调用工具执行 |
通过 OODA 可以在一定程度上解决 token预测与现实问题 的差距,并且可以保证在执行过程中身份连续。这里的执行过程,作者提出是跨越多次提问,个人认为也可以跨越多次会话(session)。
传统软件完成任务,Agent 持续适应
Agent 形成的心得知识结构
- 信念 Brief:对世界模型的积累
- 目标 Goal:动态目标,随着任务的过程、结果调整
- 情绪 Emotion:应对环境变化的机制。如复杂环境下执行后验证频率更高
- 元认知 Meta-cognition:对思考的思考,个人认为也就是可以写入记忆的经验,类似思维模式