1.1 什么是Agent?
Agent(智能体或代理)是人工智能领域里的核心概念,指的是可以感知周围环境、自主做出判断、并完成任务来达成特定目标的智能实体。简单来说,就是帮你代处理各类事情的智能角色。
Agent主要拥有四大核心能力:
环境感知:借助视觉传感器、语音接口等多种方式的“感官”,实时收集环境信息
智能决策:利用深度学习模型和强化学习算法,完成复杂的判断与选择
任务执行:能够调用API工具库,或是控制物理设备,真正把事情落地完成
持续进化:拥有在线学习和迁移学习的能力,让自身效果不断变好、能力持续提升
1.2 agent基础框架
最早大家所熟悉的AI Agent图如下:
主要包含规划、记忆、工具、执行这几个模块,后面两个模块合在一起,其实就是工具的使用。而负责控制这些操作的核心,就好比我们人身上的大脑,放到AI领域里,这个核心角色就是由大模型来担任的。
所以总结下来就是:AI Agent = 大脑(大模型 LLM)+ 记忆 + 工具使用 + 规划。
大模型一路走来,核心就是从内容智能走向行为智能,最终朝着通用人工智能去发展。其中,对话、推理、自主调度Agent、创新、组织,是智能化最关键的五大表现。
从最早只能简单聊天的对话机器人,到现在能自己调用工具、独立解决问题的Agents形态,未来大模型还有望在创新和组织能力上实现更大突破。
1.3 Agent的分类?
Agent 主要可以分成四种形态:
Reflection 反思模式:依靠模型自己进行反思,不断优化任务的执行方式,像 react、self-refine、refine 都属于这一类。
Tool use 工具调用:让模型去调用外部工具或者相关库,以此来完成任务。
Planning 规划模式:提前把步骤规划好、梳理清楚,用来提高执行效率和结果准确率。
Multi-agent collaboration 多智能体协作:由多个智能体相互配合完成任务,让整体执行效果更好,比如 A2A 协议就是用来解决这类协作问题的协议。
1)Reflection【反思模式】
让模型自己进行反思,从而优化任务的执行效果,像 react、self-refine、refine 都属于这类思路。
代表技术:ReAct框架、Self-Refine算法
特点:在完成任务后通过自我反思,一步步优化决策过程
应用场景:需要不断优化、持续迭代的复杂决策系统
2)Tool use【工具调用】
让模型调用外部工具或第三方库来完成任务,具体用什么工具、设置什么参数,都由模型自主判断。
核心技术:函数调用(Function Calling)、API集成
优势:打破大模型本身的限制,让模型能完成现实世界里的实际操作
典型案例:自动订票系统、智能客服工单处理这类相对简单的场景
3)Planning【规划模式】
提前规划好执行步骤,合理安排流程,从而提高效率和准确率。
关键技术:分层任务网络(HTN)、蒙特卡洛树搜索
价值:能明显提升复杂任务的执行效率和成功率
应用实例:物流路径规划、生产排程优化
4)Multi-agent collaboration【多智能体协作】
由多个智能体互相配合,一起完成任务,提升整体执行效果,比如 A2A 协议就是用来解决这类协作问题的。
前沿协议:A2A协作框架、联邦学习机制
突破:实现智能体之间的知识共享和协同决策
典型应用:分布式智能系统、群体机器人控制