AI 工程学习路线 · 第一篇
从达特茅斯会议到 GPT,再到 Agent,一篇文章看懂 AI 的演进逻辑。
AI 不再只是聊天机器人了——它开始自己动手干活。你让它改代码,它真的打开编辑器、跑测试、提交 PR;你让它做调研,它真的搜资料、读论文、写报告。这不是科幻,是 2026 年正在发生的事。
但为什么是现在?为什么所有公司同时转向同一个方向?这背后有一条 70 年的因果链。
观点标识说明:本文区分三类内容——📚 事实(引用论文、教材、历史资料);🔍 分析(基于多个来源的归纳);💡 作者观点(第一性原理思考和判断)。
· · ·
前言:为什么今天所有 AI 公司都在做 Agent
2024-2025 年,Anthropic 推出 Computer Use 和 MCP 协议,OpenAI 发布 Agents SDK,Google 发布 A2A 协议,Devin 成为首个出圈的 AI 软件工程 Agent。到 2026 年中,Claude Code、Cursor 已经是工程师的日常工具。
三大 AI 公司同时押注 Agent,不是巧合。背后有一条从 1956 年就开始的因果链。
凭什么是 Agent?它只是「LLM + Tools」吗?
💡 简短的回答:Agent 这个概念在 AI 学科里存在了 30 年,一直没大规模落地,因为缺一个足够强的推理引擎。LLM 补上了这块之后,剩下的能力——感知、行动、记忆、反馈——变成了可以工程化解决的问题。路径一旦清晰,所有人自然同时转向。
下面从 AI 的初心开始,一层层把这条因果链讲透。
· · ·
第一章 AI 的初心是什么
📚 1955 年,McCarthy、Minsky、Rochester 和 Shannon 提交了达特茅斯会议的申请书。里面有一句话定义了整个学科的目标:
"Every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it."
——McCarthy et al.《A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence》(1955)
注意这句话的关键词:simulate intelligence(模拟智能)。不是 generate text,不是 predict next token,是模拟人的智能。
🔍 从 1956 年至今,AI 经历了专家系统、机器学习、深度学习、Transformer、LLM 几个阶段。每一代的技术手段不同,但达特茅斯定下的目标没变过。
那么问题来了:什么叫「智能」?模拟智能到底要模拟什么?
· · ·
第二章 什么是智能
顺着「智能」这个词往下钻,问五层就见底。
什么是智能? 不是知道很多东西,是能用所知道的去达成目标。一个人背了整本百科全书但不会用,没人说他「智能」。
达成目标需要什么? 需要推理。环境存在未知,得根据已有信息想出下一步该干嘛。
光推理够不够? 不够。知道答案并不能改变世界。想出来还得做出来,目标才能达成。
做完就行了? 不行。第一次决策可能错误。做完得知道做得对不对,看到结果,判断离目标近了还是远了,然后调整。
调整靠什么? 靠记住之前干过什么、结果怎样。经验能提升未来决策。没有记忆,每次都从零开始,调整无从谈起。
五层问完,「智能」可以拆成六个具体能力:
| 能力 | 做什么 |
|---|---|
| 目标 | 知道自己要干嘛 |
| 感知 | 接收外部信息 |
| 推理 | 根据信息想出下一步 |
| 行动 | 把想的变成做的 |
| 反馈 | 看到结果,判断对不对 |
| 学习 | 记住经验,下次做得更好 |
🔍 这六条不是某一篇论文的原文,是基于控制论、认知科学和现代 AI 教材的抽象总结。控制论创始人 Wiener 在 1948 年就提出:智能系统的核心是感知-行动-反馈的闭环,不是单向输出。这个洞察直到今天仍然是 Agent 设计的理论根基。
· · ·
第三章 Agent 并不是今天才出现
很多人觉得 Agent 是 2024 年随 GPT 一起火起来的新概念。不是。
📚 Russell 和 Norvig 在 AI 领域最权威的教科书里,从第一版(1995 年)就把 Agent 作为核心概念:
"An agent is anything that can be viewed as perceiving its environment through sensors and acting upon that environment through actuators."
——Russell & Norvig《Artificial Intelligence: A Modern Approach》
这个定义说的是:只要一个系统能感知环境并对环境做出动作,它就是 Agent。跟 LLM 没关系,跟深度学习没关系——这是 AI 学科从 1995 年就确立的基本概念。
🔍 过去 30 年,Agent 一直活在教科书和学术论文里,没大规模落地。不是概念不对,是缺少足够强的基础模型来支撑「推理」这一环。一个 Agent 要能理解自然语言指令、拆解任务、决定下一步调什么工具——这些能力在 LLM 之前都做不好。LLM 补上了推理能力,Agent 才从理论变成了工程。
· · ·
第四章 LLM 为什么不够
📚 LLM 的技术基础是 Transformer(Vaswani et al., 2017),核心能力由 GPT-3(Brown et al., 2020)展示:给定上下文,预测下一个 token。
这个机制带来了两个强能力:知识表达(训练数据里的)和推理(根据上下文推导出下一步)。这两条做得很好,好到让人觉得「AI 已经很强了」。
🔍 但拿第二章的六条能力去对 LLM,缺口一眼就看出来:
| 能力 | LLM 的现状 |
|---|---|
| 感知 | 只能读文本(后来加了多模态,但仍是被动接收) |
| 行动 | 只能输出文本,不能操作任何外部系统 |
| 记忆 | 上下文窗口用完就忘,没有跨会话记忆 |
| 反馈 | 不知道自己的回答是对是错,没有验证环节 |
LLM 本质上是一个「只能回答,不能做事」的系统。你问它「帮我订明天的机票」,它会告诉你怎么订,但它订不了。你问它「这段代码有 bug 吗」,它会分析,但它跑不了、测不了、改不了。
这不是模型不够大或训练数据不够多能解决的。这是架构层面的缺失——LLM 的输入是文本,输出也是文本,它跟外部世界之间没有通路。
· · ·
第五章 Agent 如何补齐这些能力
Agent 不是一个全新的东西,它是在 LLM 外面包了一层,把缺的那几条能力补上。这些能力不是凭空造出来的,每一项背后都有对应的研究工作:
📚 近几年的关键工作:
| 缺失的能力 | 怎么补的 | 代表工作 |
|---|---|---|
| 行动(Tool Use) | 让模型调用外部工具 | Toolformer (2023)、OpenAI Function Calling |
| 推理 + 行动闭环 | 交替进行思考和行动 | ReAct (2023) |
| 规划 | 先拆解任务再逐步执行 | Plan-and-Execute、BabyAGI |
| 反思 | 根据失败结果自我修正 | Reflexion (2023) |
| 记忆 | 分层记忆(工作记忆 + 长期存储) | MemGPT (2023)、Mem0 |
把这些能力串起来,就是一个循环:
这个循环就是 Agent 的核心。如果你读过 ReAct 论文,会认出这就是 Thought → Action → Observation 循环。不是学术界凭空造了一个模式,而是「要完成任务」这个需求本身就要求这样的结构。
· · ·
第六章 从论文到生产:2024-2026 的验证
第五章的引用全部停在 2023 年。接下来两年发生的事情,刚好可以检验前面的推导是不是纸上谈兵。
能力逐项兑现
🔍 把第五章的论文和 2024-2026 的产品对照着看:
| 能力 | 2023 论文 | 2024-2026 生产 |
|---|---|---|
| 行动 | Toolformer | MCP、Agents SDK |
| 推理 + 行动 | ReAct | Claude Code、Cursor |
| 感知 | 多模态论文 | Computer Use |
| 规划 | BabyAGI | Devin |
| 记忆 | MemGPT | CLAUDE.md + Memory 系统 |
| 多 Agent | 学术框架 | A2A 协议、CrewAI |
几个值得展开的:
📚 MCP(Model Context Protocol):Anthropic 在 2024 年发布的工具接入标准协议。之前每个 Agent 自己对接 API,每换一个工具就重写一次适配层。MCP 把工具描述、调用、返回的格式统一了,Agent 生态的碎片化问题从协议层面解决。OpenAI 随后发布 Agents SDK,走的是同一个方向。
📚 Computer Use:Anthropic 在 2024 年让模型直接操作屏幕和鼠标。Agent 的「行动」能力从调 API 扩展到操作 GUI,感知从「读文本」扩展到「看屏幕」。这一步补的是第二章里「感知」和「行动」两条能力的最后一块拼图。
📚 A2A(Agent-to-Agent Protocol):Google 在 2025 年发布的多 Agent 互操作标准。当单个 Agent 的能力稳定之后,下一个工程问题自然是多个 Agent 之间怎么协作。这个顺序跟第二章的能力依赖链一致:先把单体能力补齐,再解决协作。
工程重心已经转移
📚 Karpathy 在 2025 年提出 Context Engineering:Agent 的核心工程问题不再是「怎么调工具」,而是「怎么管上下文」。模型的推理窗口有限,Agent 跑多步之后,历史信息怎么压缩、什么该留什么该丢、怎么避免上下文腐烂,成了比工具调用更难的问题。
🔍 这个信号说明 Agent 的基本架构(推理 + 工具 + 记忆 + 反馈)已经稳定,不再是研究问题。工程重心在向更深层的可靠性移动——而这恰恰是一个技术从论文走向生产的标志。
· · ·
第七章 为什么 Agent 是 AI 的必然演进
💡 以下是我的分析。
回到开头的问题:为什么 AI 一定会走向 Agent?
把前面几章串起来看:
- AI 的目标从 1956 年起就是模拟完整智能(第一章)
- 完整智能需要六种能力:目标、感知、推理、行动、反馈、学习(第二章)
- Agent 作为概念在 AI 里存在了 30 年,一直缺推理引擎(第三章)
- LLM 补上了推理,但只覆盖了六种能力中的两种(第四章)
- 剩下四种能力通过工具调用、反思、记忆等工程手段逐一补齐(第五章)
- 2024-2026 的工程实践验证了这条演进路径(第六章)
这些能力补齐的顺序也不是随意的——它们之间有依赖关系:
每加一层,离「完整智能」就近一步。加到最后,就是 Agent。这条路不存在岔道——你不可能跳过「行动」直接到「学习」,也不可能不要「反馈」就做好「规划」。
💡 所以 Agent 不是谁发明了一个概念然后大家跟风。是 AI 的能力积累到 LLM 阶段之后,下一步该补什么,倒推出来就是 Agent 这个形态。Agent 不是一个独立的新物种,而是 AI 各项能力逐渐补齐后的系统形态。
· · ·
第八章 Agent 之后还会怎么走
🔍 Agent 补齐了单个智能体的能力,但离「完整智能」还有距离。从当前研究和工程实践看,下一步大致有两个方向:
多 Agent 协作:一个人能做的事有限,一群各有专长的人协作能做更多。现在已经有很多 Multi-Agent 框架在做这件事——让不同 Agent 分工、对话、互相审核。
自主学习:目前的 Agent 虽然有记忆,但还不能真正从失败中自我改进。它记住的是「上次用户说了什么」,而不是「上次我哪里做错了、下次该怎么改」。当 Agent 能做到后者,才算真正闭环。
Agent 不是终点,是 AI 从「语言模型」变成「智能系统」这条路上,走到现在的位置。
· · ·
我的思考
💡 回顾全文,有三个判断我认为值得单独拎出来:
AI 的发展不是从 Chat 走向 Agent,是从「生成答案」重新回到「完成目标」。 达特茅斯的初心就是模拟智能、完成任务,GPT 时代的对话反而是一个中间状态——模型够强了但还没接上手脚。Agent 不是新方向,是回到正轨。
LLM 改变了 AI 的能力边界,Agent 改变了 AI 与现实世界的交互方式。 LLM 解决了「能不能想明白」的问题,Agent 解决了「想明白之后能不能做到」的问题。两者是互补的,不是替代的。
能力之间的依赖关系决定了演进顺序几乎是定死的。 没有推理就没有规划,没有行动就没有反馈,没有反馈就没有学习。这不是事后总结,而是可以用来预测下一步的框架——当前 Agent 最薄弱的环节是自主学习,那么下一波突破大概率在这里。
· · ·
写在最后
这是「AI 工程学习路线」系列的第一篇。后续文章会继续沿着这条线深入:
- 下一篇:ReAct 论文精读——Agent 最核心的思考-行动循环是怎么工作的
- 再下一篇:动手实现一个最小 Agent——从零搭建 Tool Use + ReAct 循环
如果你也在学习或实践 AI Agent,欢迎留言聊聊:你在实际工作中用过哪些 Agent 工具?体验如何?遇到了什么问题?
公众号内无法插入外链。所有参考论文和链接,请点击文末「阅读原文」查看完整版。
经典理论
[1] McCarthy et al. (1955) A Proposal for the Dartmouth Summer Research Project on AI
[2] Russell & Norvig (2020) Artificial Intelligence: A Modern Approach, 4th ed.
[3] Wiener (1948) Cybernetics: Or Control and Communication in the Animal and the Machine
LLM 基础
[4] Vaswani et al. (2017) Attention Is All You Need. NeurIPS 2017
[5] Brown et al. (2020) Language Models are Few-Shot Learners. NeurIPS 2020
Agent 关键工作(2023)
[6] Schick et al. (2023) Toolformer. NeurIPS 2023
[7] Yao et al. (2023) ReAct. ICLR 2023
[8] Shinn et al. (2023) Reflexion. NeurIPS 2023
[9] Packer et al. (2023) MemGPT. arXiv:2310.08560
Agent 工程落地(2024-2026)
[10] Anthropic (2024) Model Context Protocol (MCP)
[11] OpenAI (2025) Agents SDK
[12] Anthropic (2024) Computer Use
[13] Google (2025) Agent2Agent Protocol (A2A)
[14] Karpathy (2025) Context Engineering