智能体演化简史:从符号规则到涌现智能

33 阅读15分钟

前言

2023 年以来,基于大语言模型的 AI Agent 成为技术圈最炙手可热的方向之一。AutoGPT、MetaGPT、Claude Code 等项目层出不穷,"智能体"从一个学术概念变成了工程师可以亲手构建的东西。

但"智能体"这个概念并非凭空出现。从上世纪 50 年代的符号推理系统,到 80 年代的分布式心智理论,再到今天的 LLM Agent,它的内涵经历了数次根本性的重塑。每一次范式转变都不是简单的技术升级,而是对前一范式根本困境的回应。

理解这段演化史,你会发现:那些看似激进的新思想,往往在几十年前就已经埋下了种子;而那些曾被认为走入死胡同的理论,又在新技术条件下以另一种方式回响。

本文将沿着"智能体"这一核心概念,串联起从符号主义到现代 LLM 智能体的完整演化脉络。


一、符号的黎明:把智能理解为逻辑运算

人工智能的早期探索,建立在一个简洁有力的假设之上:智能的本质,就是符号的计算与处理。

这一思想最系统的表达,是 Allen Newell 和 Herbert Simon 在 1975 年提出的物理符号系统假说(Physical Symbol System Hypothesis, PSSH)。它包含两个论断:

  1. 充分性论断:任何一个物理符号系统,都具备产生通用智能行为的充分手段。
  2. 必要性论断:任何一个能够展现通用智能行为的系统,其本质必然是一个物理符号系统。

换句话说,只要能找到正确的方式来表示知识,并设计出有效的推理算法,就一定能创造出与人类媲美的机器智能。

这一假说最成功的工程产物是专家系统。它的架构出奇简洁,却一度令人信服:

  • 知识库:存储领域专家的知识和经验,以"如果……那么……"的形式编码为规则。
  • 推理机:一个通用程序,根据用户提供的事实,在知识库中匹配并应用相关规则,推导出新结论。

在医疗诊断、地质勘探等高度垂直的领域,专家系统确实取得了令人瞩目的成果。但它们也暴露了符号主义范式两个根本性的困境。

第一个困境是知识获取瓶颈。 系统的"智能"完全依赖于知识库的质量和完备性。但将人类专家的隐性知识显式化为逻辑规则,本身就是一个极其昂贵且不可靠的过程。很多人类专家"知道怎么做"却"说不清为什么"——这种默会知识根本无法转化为符号规则。

第二个困境更加致命:僵化。 符号系统在面对真实世界的模糊性、复杂性和无穷变化时,总是显得脆弱不堪。一旦遇到知识库中没有覆盖的情况,系统就直接崩溃。你不可能为一个开放世界枚举所有可能的状态。

这些问题指向了一个更深层的困惑:依赖预设规则的单一集中推理引擎,真的能通向真正的智能吗?


二、心智社会:一次超越时代的思想革命

面对符号主义的僵局,大多数研究者选择了修补——加更多规则,造更大的知识库。但马文·明斯基走了一条截然不同的路。

在他的《心智社会》一书中,明斯基提出了一个根本性的反问:

是什么魔法让我们变得智能?答案是:根本不存在魔法。智能的力量来源于我们庞大的多样性(diversity),而非任何单一、完美的原理。

这不仅仅是一句哲学感叹,而是对整个人工智能研究方向的重定向。明斯基开始追问一系列比"如何编码规则"更基础的问题:

  • "理解"是什么? 当我们说理解一个故事时,这是一种单一能力,还是视觉化、逻辑推理、情感共鸣、社会常识等数十种不同心智过程协同工作的结果?
  • "常识"是什么? 它是一个包含了数百万条逻辑规则的庞大知识库,还是一种由无数具体经验和简单规则片段交织而成的分布式网络?
  • 智能体应该如何构建? 我们是否应该继续追求一个完美的统一逻辑系统,还是承认智能本身就是"不完美"的、由许多功能各异甚至彼此冲突的简单部分组成的?

基于这些反思,明斯基提出了一个颠覆性的构想:不再将心智视为金字塔式的层级结构,而是将其看作一个扁平化的、充满互动与协作的"社会"。

在这个心智社会中,智能体不再是那个全知全能的中央推理引擎,而是极其简单、专门化的心智过程。一个智能体自身是"无心"的——它只做一件小事,而且做得并不完美。但当大量这样的简单智能体被组织成机构,通过去中心化的激活与抑制信号相互影响时,复杂的、有目的性的智能行为就会从局部交互中涌现出来。

以"搭建积木塔"为例:

  1. 高层目标"我要搭一个塔"激活了 BUILD-TOWER 机构。
  2. BUILD-TOWER 并不懂具体操作,它只负责激活下属的 BUILDER 机构。
  3. BUILDER 包含一个简单循环:只要塔没搭完,就激活 ADD-BLOCK
  4. ADD-BLOCK 依次协调 FIND-BLOCKGET-BLOCKPUT-ON-TOP 三个子机构。
  5. GET-BLOCK 又会激活视觉系统的 SEE-SHAPE、运动系统的 REACHGRASP 等更底层的智能体。

每一层都只做自己简单的事。没有哪个智能体拥有"搭塔"的完整蓝图。但正是这种分层的、去中心化的协作,最终涌现出了有目的性的复杂行为。

心智社会理论最深远的影响,在于它为后来的多智能体系统分布式人工智能提供了概念基础。它让研究者开始思考一个全新的问题:

如果一个心智内部的智能是通过大量简单智能体的协作涌现的,那么,在多个物理上分离的计算实体之间,是否也能通过协作涌现出更强大的群体智能?

由此催生了三个核心研究方向:去中心化控制(没有中央节点的协调机制)、涌现式计算(蚁群算法、粒子群优化等从局部规则中产生全局解的算法)、以及智能体的社会性(通信语言、协商策略、信任模型)。


三、学出来的智能:从符号到联结

当符号主义在实践中遇到瓶颈时,另一条路线开始重新兴起——联结主义

与符号主义自上而下、依赖人工设计规则的做法截然不同,联结主义是一种自下而上的方法,其灵感来源于对生物大脑神经网络结构的模仿。这一范式的核心主张有三点:

  1. 分布式表示:知识不以明确的符号或规则形式存在,而是以连接权重的形式,分布式地存储在大量简单处理单元(神经元)的连接之间。整个网络的连接模式本身就构成了知识。
  2. 简单单元:每个神经元只执行非常简单的计算——接收加权输入,通过激活函数处理,输出结果。
  3. 从数据中学习:系统的智能不是设计者预先编写的,而是通过接触大量样本,利用反向传播等算法自动迭代调整连接权重,使网络输出逐渐接近期望目标。

联结主义解决了一个符号主义几乎束手无策的问题:感知。识别图片中的物体、理解语音中的词语——这些任务很难用显式规则描述,但可以从标注数据中学习。它用"从数据中学习"取代了"手工编写规则",从根本上绕过了知识获取瓶颈。

但联结主义主要解决的是"这张图里有什么"这样的感知问题。一个真正的智能体还需要回答另一个问题: "在这种情况下,我应该做什么?"


四、在试错中成长:强化学习

强化学习就是专门为序贯决策问题设计的学习范式。它不再从静态的标注数据集中学习,而是让智能体直接与环境交互,在试错中学习如何最大化长期收益。

强化学习的框架由五个核心要素构成:

  • 智能体:学习者和决策者。
  • 环境:智能体外部的一切,是交互的对象。
  • 状态:环境在某一时刻的特定描述,是决策的依据。
  • 行动:智能体根据当前状态所能采取的操作。
  • 奖励:环境对行动的反馈标量信号,用于评价该行动的好坏。

这个框架的美妙之处在于它的通用性:无论是下围棋、控制机器人行走,还是优化广告投放策略,都可以映射到这个 Agent-Environment 交互循环中。AlphaGo 就是强化学习最著名的应用案例——通过与自己对弈数百万局,它从零开始学会了超越人类的围棋策略。

但强化学习也有自己的瓶颈:它通常需要海量的、针对特定任务的交互数据。在模拟器中训练一个游戏 AI 可行,但要在现实世界中对一个通用智能体进行这种规模的试错训练,既不现实也不安全。

这引出了下一个问题:如何让智能体在开始学习具体任务前,就先具备对世界的广泛理解?


五、预训练革命:知识的另一种存在方式

这个问题的答案,最终在自然语言处理领域中浮现,其核心就是预训练

在预训练范式出现之前,NLP 模型通常是为单一任务(如情感分析、机器翻译)在专门标注的中小规模数据集上从零开始训练的。这种模式导致了三个问题:模型知识面狭窄、无法泛化到新任务、每个新任务都需要昂贵的人工标注。

预训练 + 微调范式彻底改变了这一局面:

  1. 预训练阶段:在互联网级别的海量文本上,通过自监督学习训练一个超大规模神经网络。目标不是完成任何特定任务,而是学习语言本身的内在规律——最常见的目标就是"预测下一个词"。
  2. 微调阶段:预训练完成后,模型已经内化了语言结构、事实知识和上下文逻辑。针对特定下游任务,只需用少量标注数据微调,模型就能快速适应。

真正令人震撼的是,当模型规模跨越某个阈值后,出现了未被直接训练的涌现能力

  • 上下文学习:无需调整模型权重,仅在输入中提供几个示例,模型就能理解并完成全新任务。
  • 思维链推理:引导模型在回答前先输出一步步的推理过程,可以显著提升其在逻辑和算术任务上的准确性。

这意味着,通过在万亿级文本上的预训练,神经网络的权重实际上构建了一个关于世界知识的高度压缩的隐式模型。它以一种全新的方式,解决了符号主义时代最棘手的知识获取瓶颈问题——不是把知识写成规则,而是让知识溶解在参数之中。


六、现代智能体的诞生:LLM 作为认知核心

大型语言模型的涌现能力,让它不再仅仅是一个语言模型。它演变成了一个兼具海量知识库和通用推理引擎双重角色的组件——而这,恰好构成了构建新一代智能体的核心。

LLM 驱动的智能体的核心架构,可以抽象为一个持续迭代的闭环:

感知 → 思考 → 行动 → 观察 → 感知……

具体来说,这个循环由三个核心模块协同完成:

1. 感知模块:从外部环境接收原始输入——用户指令、API 返回的数据、环境状态的变化。这些观察信息是决策的起点。

2. 思考阶段(规划模块 + LLM 协同):

  • 规划模块进行高级策略制定,将宏观目标分解为具体可执行的步骤,并通过反思和自我批判机制不断调整。
  • LLM 作为中枢,接收规划指令、整合记忆模块中的历史信息,进行深度推理,最终决策出下一步要执行的具体操作(通常以工具调用的形式呈现)。

3. 执行模块:解析 LLM 生成的工具调用指令,从工具箱中选择合适的工具(代码执行器、搜索引擎、API 等),与环境交互执行行动。

行动完成后,工具执行结果和新的环境状态构成新的观察,被感知模块再次捕获。LLM 根据反馈更新记忆,启动下一轮循环。

这个架构的优雅之处在于它的模块化协同:每个模块各司其职,通过持续迭代逐步逼近复杂问题的解。LLM 不再试图一步到位地输出最终答案,而是在一个结构化的框架中反复感知、推理、行动、反思。


七、螺旋上升:心智社会的现代回响

回顾整条演化脉络,一个耐人寻味的模式浮现出来。

明斯基在四十年前提出"智能来自多样性,而非单一完美原理"时,这更像是一个哲学洞见而非工程方案。当时的技术条件无法实现他构想中那种由大量简单智能体协作涌现智能的系统。

但今天再看,你会发现这条思想线索从未中断:

  • 模块化架构:现代 LLM Agent 的感知-规划-执行架构,本质上就是一种模块化的分工协作。LLM 本身不是全知全能的——它需要感知模块提供上下文,需要规划模块分解任务,需要执行模块调用工具。智能正是从这些功能各异的模块之间的协同中涌现出来的。
  • 多智能体系统:当我们将多个 LLM Agent 组合成一个协作系统(如 MetaGPT 中的产品经理 Agent、架构师 Agent、工程师 Agent),这种设计几乎就是心智社会理论的直接工程实现。每个 Agent 有自己专门的角色和视角,通过通信和协商完成单个 Agent 无法独立完成的任务。
  • 去中心化控制:心智社会理论中"不存在中央控制器"的思想,正在被 Agent 系统的设计者重新发现。当任务足够复杂时,预设的刚性工作流不如让 Agent 在运行时动态协商、自主分工来得有效。

这不是简单的"复古",而是一种螺旋上升。符号主义时代,我们试图用规则搭建智能,却被知识瓶颈卡住。联结主义和强化学习教会了我们从数据和交互中学习。预训练大模型以参数化的方式内化了海量知识,绕过了知识获取瓶颈。而现在,当我们将 LLM 嵌入到结构化的 Agent 框架中,明斯基当年的洞见——模块化、协作、涌现——在新的技术基座上重新获得了生命力。

结语

纵观智能体的演化史,每一次范式转变都遵循同一个模式:前一范式的瓶颈,催生了新范式的突破口。

符号主义受限于知识获取→联结主义学会了从数据中学习。感知问题解决后,决策问题浮现→强化学习提供了交互学习的框架。RL 需要海量任务特定数据→预训练让模型先学会通用的世界知识。LLM 拥有了知识和推理能力,但仍需要与真实世界交互的框架→现代 Agent 架构补上了感知和行动的闭环。

理解这段历史的价值不在于怀旧,而在于看清:当前的技术形态并非终点,它自身的局限性中,正孕育着下一次范式转变的种子。 今天的 LLM Agent 仍在与幻觉、推理深度和可靠性作斗争——这些都可能是下一种范式的起点。

而明斯基四十年前的洞见——智能不在于找到那个完美的单一原理,而在于让大量不完美的部分协同工作——可能比任何时候都更接近工程实现。