什么 是 AI Agent?

1 阅读2分钟

image.png

什么是 AI Agent?

AI 助理实际上是一个置于“环境”中的智能体,它通过感知外界、在内部做决策,然后采取行动来完成任务。下面分模块说明图中各部分的含义。

1. 环境

  • 外部世界:用户、传感器、互联网等提供信息的来源。
  • 示例:有人问“明天会下雨吗?”,环境就是这段对话和天气数据。

2. 感知(Perception)

  • 输入:文字、图像、语音、传感器数据等。
  • 处理:将原始输入转换成可供“大脑”使用的表示。
    • 例如 OCR 识别文本、语音转文字、图像分类等。

3. 大脑(Brain)

  • 存储
    • 记忆:短期/长期记忆用于保留上下文。
    • 知识:预训练模型参数、知识库、规则等。
  • 思考/决策
    • 总结:对感知到的信息进行整理。
    • 回忆:从记忆中取出相关内容。
    • 学习/推理:根据已有知识生成新答案或计划。
    • 规划:制定要执行的动作序列。

4. 行动(Action)

  • 文本输出:直接回复自然语言。
  • 工具调用:调用 API、数据库、搜索引擎等。
  • 具象化动作:控制机器人、执行脚本、启动程序等。

5. 代理(Agent)

  • 这个词指代整套系统:感知→大脑→行动。
  • 它通过不断地与环境互动,不断迭代行为。

一个简单的例子

用户:看看天空,你觉得明天会下雨吗?

  1. 感知:语音或文字被识别成“天气问询”。
  2. 大脑:查天气 API,结合当前用户位置和历史数据判断“明天可能下雨”。
  3. 行动
    • 生成文本:“根据天气预报,明天会下雨,请记得带伞。”
    • 或者调用家里的智能机器人“拿伞”功能。

OpenClaw 举例说明模块对应

以开源抓取软件 OpenClaw 为例来映射上面的模块:

  • 环境:摄像头拍摄到的桌面、物体的图像;用户在界面上设置抓取任务。
  • 感知vision.py 模块对图像做目标检测、深度估计,将结果转换成坐标数组。
  • 大脑planner.py 中的路径规划算法,结合 state 变量(记忆) 和模型权重(知识),计算机械臂的动作序列。
  • 行动robot.py 调用库函数发送指令给机械臂,执行抓取、移动、放置等。
  • Agentopenclaw_agent.py 封装整个流程,run_loop() 不停读取传感器、规划并下发动作,与现实环境循环交互。

小结

AI 助理本质上是一个持续循环的过程: