大佬们都在说的 AI Agent,到底是什么?

550 阅读2分钟

一、概念解释

AI Agent 是通用人工智能 AGI 的前置科技。在大语言模型(LLM)的场景下,AI Agent 可以理解为在大语言模型的基础上能够自主感知、规划决策、执行复杂任务的智能产品,它可以通过独立思考和调用工具逐步完成给定的目标,无需人类去指定每一步的操作。

AI Agent = LLM(大型语言模型) + 记忆(Memory) + 规划(Planning)技能 + 工具(Tools)使用

其中 LLM 是核心大脑;记忆(Memory)、规划技能(Planning)、工具使用(Tools)则是 Agents 系统实现的三个关键组件。

比如当你想点外卖时,AI Agent 可以直接打开美团APP,结合你的历史订单信息来选择外卖商家并调用微信支付下单,这一连串的操作完全不需要你的介入,只用安心等待外卖送上门即可。

二、工作原理

Agent.png

总的来说,这个系统描述的是一个简化的模型,展示了是一个 AI agent 如何从感知信息开始,经过一系列内部处理和决策,最终做出响应的过程。

1、感知(Perception)

AI 通过传感器、摄像头、麦克风等,建立起对外部世界进行感知,包括信息的输入(Input)以及系统的环境或上下文(Environment)。

2、信息处理(Brain)

(1)信息存储

  • Storage:长期数据,如个人基础信息、爱好等;
  • Memory:短期数据,如消耗物品剩余个数等;
  • Knowledge:知识库,专业知识等。

(2)大模型 处理

基于感知的信息(输入+环境 )、记忆、知识库信息,进行加工处理,得出结论。

(3)制定计划

制定下一步的具体动作,但还没执行

3、执行(Action)

大模型本身不能完成这些任务,需要调用第三方工具(Tools 和 Calling API),通过接口或者应用,与其他App进行互动,达到最终效果。