上一篇我们讲了Text-to-Action——让AI从“生成”进化到“执行”。但有一个关键问题没来得及细讲:谁来执行? 答案是:智能体(Agent) 。本篇,我们来聊聊:智能体到底是什么?智能体和大模型的协作机制、和AGI、ASI的区别以及其他可能感兴趣的问题。
本文属技术科普文章,约3800字,阅读需要约10分钟。
一、智能体是什么?
在理解智能体之前,有必要先搞清楚大语言模型是什么。大语言模型(Large Language Model,简称大模型LLM)是近年来人工智能领域的核心突破。简单说,它是一个通过海量数据训练出来的深度学习模型,能够理解和生成自然语言。
目前主流的大模型包括:OpenAI的GPT系列、Anthropic的Claude系列、谷歌的Gemini系列,以及国内的通义、DeepSeek、Kimi等。
大模型的核心能力是理解语言、生成文本、回答问题、编写代码。但它的能力有一个边界——它只能“输出”信息,不能“执行”动作,而且大模型没有记忆(后面有介绍)。
人类设计大模型的灵感,来自对大脑的研究。2024年诺贝尔物理学奖得主、AI教父杰弗里·辛顿(Geoffrey Hinton)在2026年的访谈中解释:人类只是设计了学习算法,但当算法与海量数据交互之后,神经网络内部会形成数万亿个“连接权重”,这些权重决定了AI如何回答问题、如何理解语言。但连设计者自己也不完全清楚,这些权重到底是如何协作完成这些任务。
这就是不少科学家认为AI存在安全风险的主要原因之一(我们无法完全理解它的内部运作)。另一个主要风险是:智能体有了‘手脚’,它可以执行动作、修改代码,如果不受人类控制,理论上可以自我进化。(有关AI安全,后续将在专题里面详述)。
回到智能体话题,这是一个被问了40年的问题。 1986年,人工智能先驱马文·明斯基出版了一本书《心智社会》。他在书中提出一个颠覆性的想法:智能不是由单一的“大脑”产生的,而是由大量相对简单的“智能体”相互协作、相互作用而涌现出来的。
这是“智能体”概念第一次被系统性地提出。那一年,还没有互联网。
经过40年的演进,今天学术界和产业界对智能体的理解更加清晰了:智能体是一个能感知环境、自主决策、执行行动的程序。 如果用一句话概括:智能体是“能干活”的AI。
目前业界有一个共识:智能体是人和大模型之间的“桥梁”。 人负责目标设定者,告诉AI“做什么”; 智能体倾听人的需求,调用大模型等工具、执行操作、反馈结果;大模型负责接收智能体的请求、理解意图、思考规划、生成指令并返回。智能体把大模型的“想法和指令”变成“行动”。没有智能体,大模型只能“说”,不能“做”。
2025年8月,国务院发布《关于深入实施“人工智能+”行动的意见》,提到智能体的核心目标是,到2027年智能体应用普及率超过70%,2030年超过90%,2035年全面步入智能经济和智能社会发展新阶段。
意味着,智能体应用上升为国家战略重点。未来10年每个人都需要了解智能体,就像30年前,每个人都要了解什么是计算机一样。
二、几个主要的概念
在深入了解智能体之前,有必要厘清几个容易混淆的概念。
| 概念 | 英文 | 定义与现状 |
|---|---|---|
| 智能体 | Agent | 能感知环境、自主决策、执行行动的程序✅正在普及 |
| 大语言模型 | LLM | 能理解和生成自然语言的深度学习模型✅已成熟 |
| 通用人工智能 | AGI | 能像人一样思考的机器❌未实现 |
| 超级智能 | ASI | 全面超越人类的智能❌科幻阶段 |
智能体 vs AGI:智能体是今天正在使用的技术,AGI是未来的目标,目前业界没有AGI的统一定义,均为各自解读,有些人认为已经实现,有人认为还远未实现。也有不少人认为,多智能体协作是实现AGI的重要路径。
AGI vs ASI:AGI是“像人一样思考”,ASI是“超越所有人”。前者是学术界和产业界正在探索的方向,后者目前还停留在科幻讨论阶段。
三、智能体和大模型的协作机制
前面有提到,目前的所有大模型都没有记忆功能(提示缓存不属于记忆功能),这意味着什么?
首先我们来看看人与人之间的对话,比如两人对话,几轮互相介绍就知道是谁和交流目的等信息,而且每次对话不用重复前面的话,因为大家都会记住前面自己和对方说过的所有话。
但是与大模型对话完全不同,需要把前面说过的所有话一起发给大模型,大模型才能正确处理你的需求,否则大模型可能会基于它的理解给你回答,导致答非所问。
了解以上机制以后,下面就好理解智能体和大模型的协作机制了,具体流程大概是这样的:
- 用户提出需求
- 智能体将需求 + 可用工具列表 发给大模型
- 大模型“思考”:需要做什么?用什么工具?
- 大模型输出结构化指令(JSON格式或函数调用)
- 智能体解析指令,调用相应工具执行
- 智能体将执行结果返回大模型
- 循环,直到大模型认为已经完全解答你的需求,任务完成,返回用户
在这个协作流程中,有一个关键环节需要补充:大模型怎么知道“该用什么工具”?答案是智能体中的Skills(技能包),(详见解密Claude Code与Codex:智能体编程的工作机制(第四篇)Skills深度解析)。
Skills的核心价值在于“按需加载” 。智能体不会把所有技能都塞给大模型——那会撑爆上下文对话窗口(消息太长)。相反,它会先扫描所有技能的“简介”,根据当前任务只加载最相关的几个技能的完整说明。这就是所谓的“渐进式上下文加载”。也是智能体核心功能之一。
四、主要智能体在协作机制方面的做法
1. 多智能体协作(Agent Teams / Swarm)
Claude Code最新推出的Agent Teams(也叫Agent Swarm)功能,把“一个智能体干活”升级成了“一群智能体组团干活”。
具体做法是:
- 一个“领队智能体”负责任务拆解和分配
- 多个“队员智能体”各自领任务,并行执行
- 队员之间可以通过“邮箱系统”直接通信,不需要每件事都汇报给领队
比如你让它“开发一个博客系统”,领队会拆成前端、后端、数据库、测试四个任务,分配给四个队员同时开工。一个队员写前端的时候,另一个队员已经在写后端了——而不是等前端写完再开始后端。
Anthropic做过一个实验:16个Claude智能体并行工作,从零开始用Rust写一个C编译器,代码量约10万行,耗时2周,成本2万美元。如果是一个人干,可能需要几个月到数年。
(给做过软件开发的同学打个比方:Agent Teams类似于智能体进程, “领队智能体”相当于主线程,“队员智能体”相当于子线程,“邮箱系统”类似于共享内存或临界区)。
2. 跨模型协作
还有一个更激进的做法:不同厂商的智能体互相调用。
OpenAI官方发布了一个插件,可以直接在Claude Code里调用Codex。也就是说,你可以让Claude负责“规划”,Codex负责“执行”,两个不同公司的智能体协同完成一个任务。鉴于文章篇幅不展开了。
3. 智能体的分层记忆机制
部分智能体框架引入了三层记忆架构:
- 会话记忆:记住当前对话说了什么(短期)
- 长期记忆:跨会话记住用户的偏好、习惯(永久)
- 工作记忆:临时存放大块数据,比如工具返回的复杂结果(临时)
三层记忆各有分工,既保证了智能体不会“失忆”,又不会因为记忆太多而撑爆上下文窗口。
Anthropic的双代理架构则更进一步:一个“初始化代理”负责建立环境和记录状态,一个“编码代理”负责推进任务并留下结构化更新,确保会话间的无缝衔接。这解决了智能体在长周期任务中“做到一半忘记前面”的问题。
4. 最新的Claude Code机制
(1) . 除了Agent Teams外,Claude Code还支持SubAgent架构,核心思想是“专业的人做专业的事”:
- 一个“路由智能体”负责判断任务类型
- 多个“专业智能体”各管一摊:代码审查的只管代码审查,测试的只管测试
- 每个智能体只拥有完成任务所需的“最小权限”,提高了安全性
(2) . 计划-执行-评审循环
针对复杂任务,Claude Code引入了“计划模式”:先让一个智能体写计划,另一个智能体评审计划,确认无误后再执行。这样能有效减少“干到一半发现方向错了”的返工。
(3) . 上下文压缩与状态恢复
长对话会导致上下文窗口被占满。Claude Code的解决方案是:当上下文快满时,自动压缩历史内容,只保留关键信息;下次恢复会话时,可以基于压缩后的状态继续工作,而不是从头开始。
总而言之,智能体除了有很多技能外,还承担了AI的记忆功能。未来智能体的发展预计仍将进一步进化。
五、目前AI行业的主流观点
业内普遍认为, 2025-2026年是“智能体元年”。也就是说,智能体从实验室走向大规模应用的拐点已经到来。主要依据以下几点:
1. 推理成本大幅下降
过去两年,大模型API的调用价格下降了87%-92%。曾经只有大公司才用得起的AI能力,现在个人开发者也能负担。成本下降,智能体的大规模应用才成为可能。
2. 工具生态成熟
MCP(Model Context Protocol)等协议的标准化,让AI调用外部工具不再是“每个工具写一套代码”,而是“一次开发,处处可用”。目前已有数以万计的应用主动适配MCP协议。这意味着智能体可以“即插即用”地连接各种外部服务。
3. 记忆系统完善
早期的智能体每次对话都是“从头开始”,记不住用户的偏好和历史。现在,向量数据库、长期记忆机制、Skills技能包等技术的成熟,让智能体有了“记忆”。它能记住你的习惯,能在多次对话中保持一致,还能通过Skills不断扩展能力边界。
4. 大模型能力跃迁
过去的大模型只能处理简单任务,容易出错。现在,主流大模型的工具调用准确率已超过90%,能稳定执行复杂任务。这让智能体有了真正可靠的“大脑”。
一个形象的总结:过去,智能体是“有想法没手脚”;现在,大模型给了它“大脑”,工具生态给了它“手脚”,记忆系统给了它“经验”。三者结合,智能体才真正“活”了起来。
六、小结
智能体是大模型与物理世界(包括人)之间的桥梁,也是通向AGI的必经之路。
下篇预告:OpenClaw深度解析。
本文内容基于作者的开发经验和对官方文档的理解,仅供参考。技术工具、模型参数、定价等信息可能随时间变化,请以官方最新发布为准。如有不同见解,欢迎在评论区理性交流。
本文为原创内容,首发于微信公众号[林说AI]。未经本人书面授权,禁止任何形式的摘编、复制或用于商业用途,转载须注明出处。