下面给你一个“严格意义上的 AI Agent”必须具备的核心能力清单,这是在学术界(如 Russell & Norvig)、业界(OpenAI、Anthropic、DeepMind)、以及自主智能体研究中都比较公认的。
我把它分成 6 大类、18 项能力,并额外指出 “Agent ≠ 大模型” 的区别,方便你从架构层面理解。
✅ 严格意义上 AI Agent 必须具备的能力
一、感知(Perception)
AI Agent 必须能“读取环境”,不管是现实世界还是数字世界。
-
环境感知(Environment Perception)
能读取外部环境信息,如:- API 返回值
- 网页内容
- 文件系统
- 图片/视频
- 用户输入
-
状态建模(State Modeling)
把读到的信息组织成内部世界模型(World Model):- 当前任务进度
- 已知事实
- 未解决状态
- 可操作资源
没世界模型,就不是 agent,只是一个“问答机器人”。
二、目标(Goals)与规划(Planning)
这是 Agent 和普通模型最大的区别:
-
目标理解(Goal Interpretation)
能理解“我要你帮我做成什么”。 -
任务分解(Task Decomposition)
把大目标拆成若干可执行的子任务(Subtasks)。 -
长期规划(Long-horizon Planning)
多步骤连续行动,根据未来可能的结果规划路径。
例如:“查机票 → 对比价格 → 填写表格 → 提交订单”
-
优先级管理(Prioritization)
根据重要性、依赖关系、成本来安排执行顺序。
三、行动(Action Execution)
Agent 不是问答器,Agent 会“行动”。
-
工具使用(Tool Use / Tool Calling)
例如:- 调用 API
- 访问数据库
- 操作浏览器
- 运行脚本
- 控制机器人
-
环境修改(Environment Manipulation)
Agent 不只读,还要写,做出能改变系统状态的行动。 -
自主执行(Autonomous Execution)
无需用户一步步指令,也能自己决定下一步行动。
四、学习(Learning)与记忆(Memory)
-
短期记忆(Working Memory)
储存当前对话和任务上下文。 -
长期记忆(Long-term Memory)
保存长期知识、偏好、任务历史。 -
从经验中学习(Learning from Feedback)
能从:- 环境反馈
- 成功/失败结果
- 用户评价
中学习并调整策略。
不学习的体系不是真正的 Agent,只是一个“脚本执行器”。
五、推理(Reasoning)与自我纠错(Self-Correction)
-
多步推理(Multi-step Reasoning)
-
链式思考(Chain-of-thought)
-
自检(Self-Evaluation)
能判断自己是否失败、是否偏离目标。 -
自我修复(Self-Correction)
遇到失败时能:- 回滚
- 换路径
- 重新执行
- 修复错误
六、长期自主性(Autonomy)
-
持续运行(Persistence)
和普通 LLM 最大区别:
Agent 能长时间运行,而不是一次对话就结束。 -
主动性(Proactivity)
能主动发起行动,例如:- 监控某个值异常时报警
- 定期执行任务
- 在用户没指令时继续探索
🧩 总结:什么能力是“不可缺少”的?
必须满足 3 个关键点:
✔ 可以感知环境 —— 有世界模型
✔ 可以自主行动 —— 能调用工具
✔ 可以自我决策 —— 有规划 & 自我纠错机制
只要缺少任何一项,就不能算严格意义上的 Agent。
🆚 AI Agent 和普通大模型的区别(核心对照)
| 能力 | 普通大模型 | AI Agent |
|---|---|---|
| 工作方式 | 纯文本问答 | 自主行动 |
| 记忆 | 回合级 | 长期 |
| 工具使用 | 可选、弱 | 必须 |
| 规划 | 限 | 强 |
| 自我纠错 | 无 | 必须 |
| 环境交互 | 无 | 必须 |
| 目标驱动 | 无 | 强 |