什么是 AI Agent?
AI 助理实际上是一个置于“环境”中的智能体,它通过感知外界、在内部做决策,然后采取行动来完成任务。下面分模块说明图中各部分的含义。
1. 环境
- 外部世界:用户、传感器、互联网等提供信息的来源。
- 示例:有人问“明天会下雨吗?”,环境就是这段对话和天气数据。
2. 感知(Perception)
- 输入:文字、图像、语音、传感器数据等。
- 处理:将原始输入转换成可供“大脑”使用的表示。
- 例如 OCR 识别文本、语音转文字、图像分类等。
3. 大脑(Brain)
- 存储
- 记忆:短期/长期记忆用于保留上下文。
- 知识:预训练模型参数、知识库、规则等。
- 思考/决策
- 总结:对感知到的信息进行整理。
- 回忆:从记忆中取出相关内容。
- 学习/推理:根据已有知识生成新答案或计划。
- 规划:制定要执行的动作序列。
4. 行动(Action)
- 文本输出:直接回复自然语言。
- 工具调用:调用 API、数据库、搜索引擎等。
- 具象化动作:控制机器人、执行脚本、启动程序等。
5. 代理(Agent)
- 这个词指代整套系统:感知→大脑→行动。
- 它通过不断地与环境互动,不断迭代行为。
一个简单的例子
用户:看看天空,你觉得明天会下雨吗?
- 感知:语音或文字被识别成“天气问询”。
- 大脑:查天气 API,结合当前用户位置和历史数据判断“明天可能下雨”。
- 行动:
- 生成文本:“根据天气预报,明天会下雨,请记得带伞。”
- 或者调用家里的智能机器人“拿伞”功能。
OpenClaw 举例说明模块对应
以开源抓取软件 OpenClaw 为例来映射上面的模块:
- 环境:摄像头拍摄到的桌面、物体的图像;用户在界面上设置抓取任务。
- 感知:
vision.py模块对图像做目标检测、深度估计,将结果转换成坐标数组。 - 大脑:
planner.py中的路径规划算法,结合state变量(记忆) 和模型权重(知识),计算机械臂的动作序列。 - 行动:
robot.py调用库函数发送指令给机械臂,执行抓取、移动、放置等。 - Agent:
openclaw_agent.py封装整个流程,run_loop()不停读取传感器、规划并下发动作,与现实环境循环交互。
小结
AI 助理本质上是一个持续循环的过程: