什么是Agent?
目前,国内很多厂商和平台将Agent翻译为“智能体”,但我想说的是,这种翻译并不完全准确。如果从最原始的词典里去查的话,Agent这个英文单词实际上是代理的意思。
这里的代理,我个人理解的含义指的是让大模型“代理/模拟”「人」的行为,使用某些“工具/功能”来完成某些“任务”的能力。
所以,你会发现国外使用Agent这个词来代表让大模型调用工具或功能帮人完成某些事情的过程,其实还是比较形象的。因此,只要符合这个定义的,其实就是一种Agent。
我们可以看到有许多大厂、独角兽公司、研究所、高校,也给Agent下过许多定义,比较经典的一个定义是OpenAI的研究主管Lilian Weng给出的定义是:Agent = 大模型(LLM)+ 规划(Planning)+ 记忆(Memory)+ 工具使用(Tool Use)。
这个定义实际上是从技术实现的角度对Agent进行了定义,它指的是要实现一个Agent,就需要支持这些能力,它需要基于大模型,需要有规划的能力,能思考接下来要做的事情,需要有记忆,能够读取长期记忆和短期记忆,需要能够使用工具,他是将支持这些能力的集合体定义为了Agent。
文章篇幅有限,不便展示AI大模型全部资源。更多AI大模型学习视频及资源,都在智泊AI。
另外的一个定义是复旦大学NLP团队给出来的,他们认为Agent的概念框架包括三个组件:大脑、感知、行动。
大脑模块作为控制器,承担记忆、思考和决策等基本任务。
感知模块从外部环境感知并处理多模态信息。
行动模块则使用工具执行任务并影响周围环境。
比如:当人类询问是否会下雨时,感知模块将指令转换为大模型可以理解的表示,然后,大脑会根据当前天气和互联网天气报告开始推理,最后,行动模块作出回应并将雨伞递给人类。通过重复上述过程,Agent可以不断获得反馈并与环境互动。
其实这些各种版本的定义实际上是对我们刚才所说的Agent代理「人」做某些事情的一个更细致的拆解而已。
大家仔细想想,人要做某件事情,也是需要根据自己的记忆(学过的知识、当前事情的上下文),需要先规划这个事情怎么做,可能需要做一些思考、问题拆解,这中间也可能会使用各种各样的工具,最终通过某些动作、操作去把把某件事情完成。
因此,国内将Agent翻译为智能体,也是在表达,一个能规划、有记忆、能使用工具的东西,它又不是一个人,也不是一个动物,又不能直接将其描述为一个机器人(因为不一定是机器人形态,但有大脑),所以就给他起了个名字,叫“智能体”。
Agent的组成部分
Agent 由多个组件协同工作,以实现高效决策和任务执行。看到很多文章都提到说:大模型Agent由规划、记忆、工具与行动四大关键部分组成,分别负责任务拆解与策略评估、信息存储与回忆、环境感知与决策辅助、以及将思维转化为实际行动。
但实际上现在的大模型Agent最主要几个关键部分为:base大模型的动态推理规划、工具模块、记忆模块。如下图所示:
Agent工作流程
基于上面对Agent的组成部分,一个典型的Agent运行流程一般会包括感知、推理、决策、执行、反馈等几个流程。其中:
感知(Perception) 主要是接收输入信息,这个信息可以是用户输入或者是通过传感器在环境中获取信息;
推理(Reasoning):主要是综合上下文、环境感知信息等,分析输入数据并规划任务执行步骤;
决策(Decision Making):通过推理得到的结果来选择合适的工具或操作;
执行(Action Execution):调用 API、数据库或计算模块,完成任务;
反馈(Feedback & Learning):分析执行结果,优化未来决策。
举个例子:比如在电商智能客服场景下,有一个 AI 智能客服 Agent 来解答客户问题。当用户输入为:“请帮我查询这件商品的库存。”
Agent接收到输入信息之后,首先会通过上下文正确解析用户请求,然后会调用库存数据库 API 查询数据,即通过订单号查询订单信息、获取商品ID,结合通过商品ID再获取库存。
最后结合用户问题和数据库结果来生成对客回复;输出给用户:“该商品目前有 15 件库存,可立即发货。”
举一反三,通过整合语言模型、工具和智能编排,Agent 能够动态响应不同类型的用户需求,实现更强大的自动化和智能化服务。
文章篇幅有限,不便展示AI大模型全部资源。更多AI大模型学习视频及资源,都在智泊AI。