一文讲清:AI Agent概念、基本框架以及分类

0 阅读3分钟

1.1 什么是Agent?

图片

Agent(智能体或代理)是人工智能领域里的核心概念,指的是可以感知周围环境、自主做出判断、并完成任务来达成特定目标的智能实体。简单来说,就是帮你代处理各类事情的智能角色。

Agent主要拥有四大核心能力:

环境感知:借助视觉传感器、语音接口等多种方式的“感官”,实时收集环境信息

智能决策:利用深度学习模型和强化学习算法,完成复杂的判断与选择

任务执行:能够调用API工具库,或是控制物理设备,真正把事情落地完成

持续进化:拥有在线学习和迁移学习的能力,让自身效果不断变好、能力持续提升

1.2 agent基础框架

最早大家所熟悉的AI Agent图如下:

图片

主要包含规划、记忆、工具、执行这几个模块,后面两个模块合在一起,其实就是工具的使用。而负责控制这些操作的核心,就好比我们人身上的大脑,放到AI领域里,这个核心角色就是由大模型来担任的。

所以总结下来就是:AI Agent = 大脑(大模型 LLM)+ 记忆 + 工具使用 + 规划。

图片

大模型一路走来,核心就是从内容智能走向行为智能,最终朝着通用人工智能去发展。其中,对话、推理、自主调度Agent、创新、组织,是智能化最关键的五大表现。

从最早只能简单聊天的对话机器人,到现在能自己调用工具、独立解决问题的Agents形态,未来大模型还有望在创新和组织能力上实现更大突破。

1.3 Agent的分类?

图片

Agent 主要可以分成四种形态:

Reflection 反思模式:依靠模型自己进行反思,不断优化任务的执行方式,像 react、self-refine、refine 都属于这一类。

Tool use 工具调用:让模型去调用外部工具或者相关库,以此来完成任务。

Planning 规划模式:提前把步骤规划好、梳理清楚,用来提高执行效率和结果准确率。

Multi-agent collaboration 多智能体协作:由多个智能体相互配合完成任务,让整体执行效果更好,比如 A2A 协议就是用来解决这类协作问题的协议。

1)Reflection【反思模式】

让模型自己进行反思,从而优化任务的执行效果,像 react、self-refine、refine 都属于这类思路。

代表技术:ReAct框架、Self-Refine算法

特点:在完成任务后通过自我反思,一步步优化决策过程

应用场景:需要不断优化、持续迭代的复杂决策系统

图片

2)Tool use【工具调用】

让模型调用外部工具或第三方库来完成任务,具体用什么工具、设置什么参数,都由模型自主判断。

核心技术:函数调用(Function Calling)、API集成

优势:打破大模型本身的限制,让模型能完成现实世界里的实际操作

典型案例:自动订票系统、智能客服工单处理这类相对简单的场景

图片

3)Planning【规划模式】

提前规划好执行步骤,合理安排流程,从而提高效率和准确率。

关键技术:分层任务网络(HTN)、蒙特卡洛树搜索

价值:能明显提升复杂任务的执行效率和成功率

应用实例:物流路径规划、生产排程优化

图片

4)Multi-agent collaboration【多智能体协作】

由多个智能体互相配合,一起完成任务,提升整体执行效果,比如 A2A 协议就是用来解决这类协作问题的。

前沿协议:A2A协作框架、联邦学习机制

突破:实现智能体之间的知识共享和协同决策

典型应用:分布式智能系统、群体机器人控制

fM3QDaQlY.jpeg