智能体的崛起（二）：智能体是什么？本篇是智能体崛起的第二篇，聊聊：智能体到底是什么？智能体是大模型与物理世界（包括人）之

上一篇我们讲了Text-to-Action——让AI从“生成”进化到“执行”。但有一个关键问题没来得及细讲：谁来执行？ 答案是：智能体（Agent） 。本篇，我们来聊聊：智能体到底是什么？智能体和大模型的协作机制、和AGI、ASI的区别以及其他可能感兴趣的问题。

本文属技术科普文章，约3800字，阅读需要约10分钟。

一、智能体是什么？

在理解智能体之前，有必要先搞清楚大语言模型是什么。大语言模型（Large Language Model，简称大模型LLM）是近年来人工智能领域的核心突破。简单说，它是一个通过海量数据训练出来的深度学习模型，能够理解和生成自然语言。

目前主流的大模型包括：OpenAI的GPT系列、Anthropic的Claude系列、谷歌的Gemini系列，以及国内的通义、DeepSeek、Kimi等。

大模型的核心能力是理解语言、生成文本、回答问题、编写代码。但它的能力有一个边界——它只能“输出”信息，不能“执行”动作，而且大模型没有记忆（后面有介绍）。

人类设计大模型的灵感，来自对大脑的研究。2024年诺贝尔物理学奖得主、AI教父杰弗里·辛顿（Geoffrey Hinton）在2026年的访谈中解释：人类只是设计了学习算法，但当算法与海量数据交互之后，神经网络内部会形成数万亿个“连接权重”，这些权重决定了AI如何回答问题、如何理解语言。但连设计者自己也不完全清楚，这些权重到底是如何协作完成这些任务。

这就是不少科学家认为AI存在安全风险的主要原因之一（我们无法完全理解它的内部运作）。另一个主要风险是：智能体有了‘手脚’，它可以执行动作、修改代码，如果不受人类控制，理论上可以自我进化。（有关AI安全，后续将在专题里面详述）。

回到智能体话题，这是一个被问了40年的问题。 1986年，人工智能先驱马文·明斯基出版了一本书《心智社会》。他在书中提出一个颠覆性的想法：智能不是由单一的“大脑”产生的，而是由大量相对简单的“智能体”相互协作、相互作用而涌现出来的。

这是“智能体”概念第一次被系统性地提出。那一年，还没有互联网。

经过40年的演进，今天学术界和产业界对智能体的理解更加清晰了：智能体是一个能感知环境、自主决策、执行行动的程序。 如果用一句话概括：智能体是“能干活”的AI。

目前业界有一个共识：智能体是人和大模型之间的“桥梁”。 人负责目标设定者，告诉AI“做什么”；智能体倾听人的需求，调用大模型等工具、执行操作、反馈结果；大模型负责接收智能体的请求、理解意图、思考规划、生成指令并返回。智能体把大模型的“想法和指令”变成“行动”。没有智能体，大模型只能“说”，不能“做”。

2025年8月，国务院发布《关于深入实施“人工智能+”行动的意见》，提到智能体的核心目标是，到2027年智能体应用普及率超过70%，2030年超过90%，2035年全面步入智能经济和智能社会发展新阶段。

意味着，智能体应用上升为国家战略重点。未来10年每个人都需要了解智能体，就像30年前，每个人都要了解什么是计算机一样。

二、几个主要的概念

在深入了解智能体之前，有必要厘清几个容易混淆的概念。

概念	英文	定义与现状
智能体	Agent	能感知环境、自主决策、执行行动的程序✅正在普及
大语言模型	LLM	能理解和生成自然语言的深度学习模型✅已成熟
通用人工智能	AGI	能像人一样思考的机器❌未实现
超级智能	ASI	全面超越人类的智能❌科幻阶段

智能体 vs AGI：智能体是今天正在使用的技术，AGI是未来的目标，目前业界没有AGI的统一定义，均为各自解读，有些人认为已经实现，有人认为还远未实现。也有不少人认为，多智能体协作是实现AGI的重要路径。

AGI vs ASI：AGI是“像人一样思考”，ASI是“超越所有人”。前者是学术界和产业界正在探索的方向，后者目前还停留在科幻讨论阶段。

三、智能体和大模型的协作机制

前面有提到，目前的所有大模型都没有记忆功能（提示缓存不属于记忆功能），这意味着什么？

首先我们来看看人与人之间的对话，比如两人对话，几轮互相介绍就知道是谁和交流目的等信息，而且每次对话不用重复前面的话，因为大家都会记住前面自己和对方说过的所有话。

但是与大模型对话完全不同，需要把前面说过的所有话一起发给大模型，大模型才能正确处理你的需求，否则大模型可能会基于它的理解给你回答，导致答非所问。

了解以上机制以后，下面就好理解智能体和大模型的协作机制了，具体流程大概是这样的：

用户提出需求
智能体将需求 + 可用工具列表发给大模型
大模型“思考”：需要做什么？用什么工具？
大模型输出结构化指令（JSON格式或函数调用）
智能体解析指令，调用相应工具执行
智能体将执行结果返回大模型
循环，直到大模型认为已经完全解答你的需求，任务完成，返回用户

在这个协作流程中，有一个关键环节需要补充：大模型怎么知道“该用什么工具”？答案是智能体中的Skills（技能包），（详见解密Claude Code与Codex：智能体编程的工作机制（第四篇）Skills深度解析）。

Skills的核心价值在于“按需加载” 。智能体不会把所有技能都塞给大模型——那会撑爆上下文对话窗口（消息太长）。相反，它会先扫描所有技能的“简介”，根据当前任务只加载最相关的几个技能的完整说明。这就是所谓的“渐进式上下文加载”。也是智能体核心功能之一。

四、主要智能体在协作机制方面的做法

1. 多智能体协作（Agent Teams / Swarm）

Claude Code最新推出的Agent Teams（也叫Agent Swarm）功能，把“一个智能体干活”升级成了“一群智能体组团干活”。

具体做法是：

一个“领队智能体”负责任务拆解和分配
多个“队员智能体”各自领任务，并行执行
队员之间可以通过“邮箱系统”直接通信，不需要每件事都汇报给领队

比如你让它“开发一个博客系统”，领队会拆成前端、后端、数据库、测试四个任务，分配给四个队员同时开工。一个队员写前端的时候，另一个队员已经在写后端了——而不是等前端写完再开始后端。

Anthropic做过一个实验：16个Claude智能体并行工作，从零开始用Rust写一个C编译器，代码量约10万行，耗时2周，成本2万美元。如果是一个人干，可能需要几个月到数年。

（给做过软件开发的同学打个比方：Agent Teams类似于智能体进程， “领队智能体”相当于主线程，“队员智能体”相当于子线程，“邮箱系统”类似于共享内存或临界区）。

2. 跨模型协作

还有一个更激进的做法：不同厂商的智能体互相调用。

OpenAI官方发布了一个插件，可以直接在Claude Code里调用Codex。也就是说，你可以让Claude负责“规划”，Codex负责“执行”，两个不同公司的智能体协同完成一个任务。鉴于文章篇幅不展开了。

3. 智能体的分层记忆机制

部分智能体框架引入了三层记忆架构：

会话记忆：记住当前对话说了什么（短期）
长期记忆：跨会话记住用户的偏好、习惯（永久）
工作记忆：临时存放大块数据，比如工具返回的复杂结果（临时）

三层记忆各有分工，既保证了智能体不会“失忆”，又不会因为记忆太多而撑爆上下文窗口。

Anthropic的双代理架构则更进一步：一个“初始化代理”负责建立环境和记录状态，一个“编码代理”负责推进任务并留下结构化更新，确保会话间的无缝衔接。这解决了智能体在长周期任务中“做到一半忘记前面”的问题。

4. 最新的Claude Code机制

(1) . 除了Agent Teams外，Claude Code还支持SubAgent架构，核心思想是“专业的人做专业的事”：

一个“路由智能体”负责判断任务类型
多个“专业智能体”各管一摊：代码审查的只管代码审查，测试的只管测试
每个智能体只拥有完成任务所需的“最小权限”，提高了安全性

(2) . 计划-执行-评审循环

针对复杂任务，Claude Code引入了“计划模式”：先让一个智能体写计划，另一个智能体评审计划，确认无误后再执行。这样能有效减少“干到一半发现方向错了”的返工。

(3) . 上下文压缩与状态恢复

长对话会导致上下文窗口被占满。Claude Code的解决方案是：当上下文快满时，自动压缩历史内容，只保留关键信息；下次恢复会话时，可以基于压缩后的状态继续工作，而不是从头开始。

总而言之，智能体除了有很多技能外，还承担了AI的记忆功能。未来智能体的发展预计仍将进一步进化。

五、目前AI行业的主流观点

业内普遍认为， 2025-2026年是“智能体元年”。也就是说，智能体从实验室走向大规模应用的拐点已经到来。主要依据以下几点：

1. 推理成本大幅下降

过去两年，大模型API的调用价格下降了87%-92%。曾经只有大公司才用得起的AI能力，现在个人开发者也能负担。成本下降，智能体的大规模应用才成为可能。

2. 工具生态成熟

MCP（Model Context Protocol）等协议的标准化，让AI调用外部工具不再是“每个工具写一套代码”，而是“一次开发，处处可用”。目前已有数以万计的应用主动适配MCP协议。这意味着智能体可以“即插即用”地连接各种外部服务。

3. 记忆系统完善

早期的智能体每次对话都是“从头开始”，记不住用户的偏好和历史。现在，向量数据库、长期记忆机制、Skills技能包等技术的成熟，让智能体有了“记忆”。它能记住你的习惯，能在多次对话中保持一致，还能通过Skills不断扩展能力边界。

4. 大模型能力跃迁

过去的大模型只能处理简单任务，容易出错。现在，主流大模型的工具调用准确率已超过90%，能稳定执行复杂任务。这让智能体有了真正可靠的“大脑”。

一个形象的总结：过去，智能体是“有想法没手脚”；现在，大模型给了它“大脑”，工具生态给了它“手脚”，记忆系统给了它“经验”。三者结合，智能体才真正“活”了起来。

六、小结

智能体是大模型与物理世界（包括人）之间的桥梁，也是通向AGI的必经之路。

下篇预告：OpenClaw深度解析。

本文内容基于作者的开发经验和对官方文档的理解，仅供参考。技术工具、模型参数、定价等信息可能随时间变化，请以官方最新发布为准。如有不同见解，欢迎在评论区理性交流。

本文为原创内容，首发于微信公众号[林说AI]。未经本人书面授权，禁止任何形式的摘编、复制或用于商业用途，转载须注明出处。