Agent 是什么?为什么 AI 必然会走向 Agent

0 阅读12分钟

AI 工程学习路线 · 第一篇

从达特茅斯会议到 GPT,再到 Agent,一篇文章看懂 AI 的演进逻辑。

AI 不再只是聊天机器人了——它开始自己动手干活。你让它改代码,它真的打开编辑器、跑测试、提交 PR;你让它做调研,它真的搜资料、读论文、写报告。这不是科幻,是 2026 年正在发生的事。

但为什么是现在?为什么所有公司同时转向同一个方向?这背后有一条 70 年的因果链。

观点标识说明:本文区分三类内容——📚 事实(引用论文、教材、历史资料);🔍 分析(基于多个来源的归纳);💡 作者观点(第一性原理思考和判断)。

· · ·

前言:为什么今天所有 AI 公司都在做 Agent

2024-2025 年,Anthropic 推出 Computer Use 和 MCP 协议,OpenAI 发布 Agents SDK,Google 发布 A2A 协议,Devin 成为首个出圈的 AI 软件工程 Agent。到 2026 年中,Claude Code、Cursor 已经是工程师的日常工具。

三大 AI 公司同时押注 Agent,不是巧合。背后有一条从 1956 年就开始的因果链。

凭什么是 Agent?它只是「LLM + Tools」吗?

💡 简短的回答:Agent 这个概念在 AI 学科里存在了 30 年,一直没大规模落地,因为缺一个足够强的推理引擎。LLM 补上了这块之后,剩下的能力——感知、行动、记忆、反馈——变成了可以工程化解决的问题。路径一旦清晰,所有人自然同时转向。

下面从 AI 的初心开始,一层层把这条因果链讲透。

· · ·

第一章 AI 的初心是什么

📚 1955 年,McCarthy、Minsky、Rochester 和 Shannon 提交了达特茅斯会议的申请书。里面有一句话定义了整个学科的目标:

"Every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it."

——McCarthy et al.《A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence》(1955)

注意这句话的关键词:simulate intelligence(模拟智能)。不是 generate text,不是 predict next token,是模拟人的智能。

🔍 从 1956 年至今,AI 经历了专家系统、机器学习、深度学习、Transformer、LLM 几个阶段。每一代的技术手段不同,但达特茅斯定下的目标没变过。

那么问题来了:什么叫「智能」?模拟智能到底要模拟什么?

· · ·

第二章 什么是智能

顺着「智能」这个词往下钻,问五层就见底。

什么是智能? 不是知道很多东西,是能用所知道的去达成目标。一个人背了整本百科全书但不会用,没人说他「智能」。

达成目标需要什么? 需要推理。环境存在未知,得根据已有信息想出下一步该干嘛。

光推理够不够? 不够。知道答案并不能改变世界。想出来还得做出来,目标才能达成。

做完就行了? 不行。第一次决策可能错误。做完得知道做得对不对,看到结果,判断离目标近了还是远了,然后调整。

调整靠什么? 靠记住之前干过什么、结果怎样。经验能提升未来决策。没有记忆,每次都从零开始,调整无从谈起。

五层问完,「智能」可以拆成六个具体能力:

能力做什么
目标知道自己要干嘛
感知接收外部信息
推理根据信息想出下一步
行动把想的变成做的
反馈看到结果,判断对不对
学习记住经验,下次做得更好

🔍 这六条不是某一篇论文的原文,是基于控制论、认知科学和现代 AI 教材的抽象总结。控制论创始人 Wiener 在 1948 年就提出:智能系统的核心是感知-行动-反馈的闭环,不是单向输出。这个洞察直到今天仍然是 Agent 设计的理论根基。

· · ·

第三章 Agent 并不是今天才出现

很多人觉得 Agent 是 2024 年随 GPT 一起火起来的新概念。不是。

📚 Russell 和 Norvig 在 AI 领域最权威的教科书里,从第一版(1995 年)就把 Agent 作为核心概念:

"An agent is anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators."

——Russell & Norvig《Artificial Intelligence: A Modern Approach》

这个定义说的是:只要一个系统能感知环境并对环境做出动作,它就是 Agent。跟 LLM 没关系,跟深度学习没关系——这是 AI 学科从 1995 年就确立的基本概念。

🔍 过去 30 年,Agent 一直活在教科书和学术论文里,没大规模落地。不是概念不对,是缺少足够强的基础模型来支撑「推理」这一环。一个 Agent 要能理解自然语言指令、拆解任务、决定下一步调什么工具——这些能力在 LLM 之前都做不好。LLM 补上了推理能力,Agent 才从理论变成了工程。

· · ·

第四章 LLM 为什么不够

📚 LLM 的技术基础是 Transformer(Vaswani et al., 2017),核心能力由 GPT-3(Brown et al., 2020)展示:给定上下文,预测下一个 token。

这个机制带来了两个强能力:知识表达(训练数据里的)和推理(根据上下文推导出下一步)。这两条做得很好,好到让人觉得「AI 已经很强了」。

🔍 但拿第二章的六条能力去对 LLM,缺口一眼就看出来:

能力LLM 的现状
感知只能读文本(后来加了多模态,但仍是被动接收)
行动只能输出文本,不能操作任何外部系统
记忆上下文窗口用完就忘,没有跨会话记忆
反馈不知道自己的回答是对是错,没有验证环节

LLM 本质上是一个「只能回答,不能做事」的系统。你问它「帮我订明天的机票」,它会告诉你怎么订,但它订不了。你问它「这段代码有 bug 吗」,它会分析,但它跑不了、测不了、改不了。

这不是模型不够大或训练数据不够多能解决的。这是架构层面的缺失——LLM 的输入是文本,输出也是文本,它跟外部世界之间没有通路。

· · ·

第五章 Agent 如何补齐这些能力

Agent 不是一个全新的东西,它是在 LLM 外面包了一层,把缺的那几条能力补上。这些能力不是凭空造出来的,每一项背后都有对应的研究工作:

📚 近几年的关键工作:

缺失的能力怎么补的代表工作
行动(Tool Use)让模型调用外部工具Toolformer (2023)、OpenAI Function Calling
推理 + 行动闭环交替进行思考和行动ReAct (2023)
规划先拆解任务再逐步执行Plan-and-Execute、BabyAGI
反思根据失败结果自我修正Reflexion (2023)
记忆分层记忆(工作记忆 + 长期存储)MemGPT (2023)、Mem0

把这些能力串起来,就是一个循环:

这个循环就是 Agent 的核心。如果你读过 ReAct 论文,会认出这就是 Thought → Action → Observation 循环。不是学术界凭空造了一个模式,而是「要完成任务」这个需求本身就要求这样的结构。

· · ·

第六章 从论文到生产:2024-2026 的验证

第五章的引用全部停在 2023 年。接下来两年发生的事情,刚好可以检验前面的推导是不是纸上谈兵。

能力逐项兑现

🔍 把第五章的论文和 2024-2026 的产品对照着看:

能力2023 论文2024-2026 生产
行动ToolformerMCP、Agents SDK
推理 + 行动ReActClaude Code、Cursor
感知多模态论文Computer Use
规划BabyAGIDevin
记忆MemGPTCLAUDE.md + Memory 系统
多 Agent学术框架A2A 协议、CrewAI

几个值得展开的:

📚 MCP(Model Context Protocol):Anthropic 在 2024 年发布的工具接入标准协议。之前每个 Agent 自己对接 API,每换一个工具就重写一次适配层。MCP 把工具描述、调用、返回的格式统一了,Agent 生态的碎片化问题从协议层面解决。OpenAI 随后发布 Agents SDK,走的是同一个方向。

📚 Computer Use:Anthropic 在 2024 年让模型直接操作屏幕和鼠标。Agent 的「行动」能力从调 API 扩展到操作 GUI,感知从「读文本」扩展到「看屏幕」。这一步补的是第二章里「感知」和「行动」两条能力的最后一块拼图。

📚 A2A(Agent-to-Agent Protocol):Google 在 2025 年发布的多 Agent 互操作标准。当单个 Agent 的能力稳定之后,下一个工程问题自然是多个 Agent 之间怎么协作。这个顺序跟第二章的能力依赖链一致:先把单体能力补齐,再解决协作。

工程重心已经转移

📚 Karpathy 在 2025 年提出 Context Engineering:Agent 的核心工程问题不再是「怎么调工具」,而是「怎么管上下文」。模型的推理窗口有限,Agent 跑多步之后,历史信息怎么压缩、什么该留什么该丢、怎么避免上下文腐烂,成了比工具调用更难的问题。

🔍 这个信号说明 Agent 的基本架构(推理 + 工具 + 记忆 + 反馈)已经稳定,不再是研究问题。工程重心在向更深层的可靠性移动——而这恰恰是一个技术从论文走向生产的标志。

· · ·

第七章 为什么 Agent 是 AI 的必然演进

💡 以下是我的分析。

回到开头的问题:为什么 AI 一定会走向 Agent?

把前面几章串起来看:

  1. AI 的目标从 1956 年起就是模拟完整智能(第一章)
  2. 完整智能需要六种能力:目标、感知、推理、行动、反馈、学习(第二章)
  3. Agent 作为概念在 AI 里存在了 30 年,一直缺推理引擎(第三章)
  4. LLM 补上了推理,但只覆盖了六种能力中的两种(第四章)
  5. 剩下四种能力通过工具调用、反思、记忆等工程手段逐一补齐(第五章)
  6. 2024-2026 的工程实践验证了这条演进路径(第六章)

这些能力补齐的顺序也不是随意的——它们之间有依赖关系:

每加一层,离「完整智能」就近一步。加到最后,就是 Agent。这条路不存在岔道——你不可能跳过「行动」直接到「学习」,也不可能不要「反馈」就做好「规划」。

💡 所以 Agent 不是谁发明了一个概念然后大家跟风。是 AI 的能力积累到 LLM 阶段之后,下一步该补什么,倒推出来就是 Agent 这个形态。Agent 不是一个独立的新物种,而是 AI 各项能力逐渐补齐后的系统形态。

· · ·

第八章 Agent 之后还会怎么走

🔍 Agent 补齐了单个智能体的能力,但离「完整智能」还有距离。从当前研究和工程实践看,下一步大致有两个方向:

多 Agent 协作:一个人能做的事有限,一群各有专长的人协作能做更多。现在已经有很多 Multi-Agent 框架在做这件事——让不同 Agent 分工、对话、互相审核。

自主学习:目前的 Agent 虽然有记忆,但还不能真正从失败中自我改进。它记住的是「上次用户说了什么」,而不是「上次我哪里做错了、下次该怎么改」。当 Agent 能做到后者,才算真正闭环。

Agent 不是终点,是 AI 从「语言模型」变成「智能系统」这条路上,走到现在的位置。

· · ·

我的思考

💡 回顾全文,有三个判断我认为值得单独拎出来:

AI 的发展不是从 Chat 走向 Agent,是从「生成答案」重新回到「完成目标」。 达特茅斯的初心就是模拟智能、完成任务,GPT 时代的对话反而是一个中间状态——模型够强了但还没接上手脚。Agent 不是新方向,是回到正轨。

LLM 改变了 AI 的能力边界,Agent 改变了 AI 与现实世界的交互方式。 LLM 解决了「能不能想明白」的问题,Agent 解决了「想明白之后能不能做到」的问题。两者是互补的,不是替代的。

能力之间的依赖关系决定了演进顺序几乎是定死的。 没有推理就没有规划,没有行动就没有反馈,没有反馈就没有学习。这不是事后总结,而是可以用来预测下一步的框架——当前 Agent 最薄弱的环节是自主学习,那么下一波突破大概率在这里。

· · ·

写在最后

这是「AI 工程学习路线」系列的第一篇。后续文章会继续沿着这条线深入:

  • 下一篇:ReAct 论文精读——Agent 最核心的思考-行动循环是怎么工作的
  • 再下一篇:动手实现一个最小 Agent——从零搭建 Tool Use + ReAct 循环

如果你也在学习或实践 AI Agent,欢迎留言聊聊:你在实际工作中用过哪些 Agent 工具?体验如何?遇到了什么问题?

公众号内无法插入外链。所有参考论文和链接,请点击文末「阅读原文」查看完整版。

经典理论

[1] McCarthy et al. (1955) A Proposal for the Dartmouth Summer Research Project on AI

[2] Russell & Norvig (2020) Artificial Intelligence: A Modern Approach, 4th ed.

[3] Wiener (1948) Cybernetics: Or Control and Communication in the Animal and the Machine

LLM 基础

[4] Vaswani et al. (2017) Attention Is All You Need. NeurIPS 2017

[5] Brown et al. (2020) Language Models are Few-Shot Learners. NeurIPS 2020

Agent 关键工作(2023)

[6] Schick et al. (2023) Toolformer. NeurIPS 2023

[7] Yao et al. (2023) ReAct. ICLR 2023

[8] Shinn et al. (2023) Reflexion. NeurIPS 2023

[9] Packer et al. (2023) MemGPT. arXiv:2310.08560

Agent 工程落地(2024-2026)

[10] Anthropic (2024) Model Context Protocol (MCP)

[11] OpenAI (2025) Agents SDK

[12] Anthropic (2024) Computer Use

[13] Google (2025) Agent2Agent Protocol (A2A)

[14] Karpathy (2025) Context Engineering