曾经我们以为 AGI 将至:AI 七十年热潮、寒冬与重启

5 阅读22分钟

曾经我们以为 AGI 将至:AI 七十年热潮、寒冬与重启

很多人第一次接触 AI 历史,会以为它是一条从图灵测试、神经网络、深度学习、大模型一路往上的直线。

这其实是误解。

AI 的真实历史更像一条震荡曲线:几乎每隔一二十年,就会出现一次让人激动的突破。研究者相信这次路线对了,政府相信这是国家竞争力,企业相信新产业会爆发,媒体相信“机器快要像人一样思考”。然后现实世界慢慢把问题摊开:规则写不完,常识补不上,数据不够,算力不够,演示系统离真实系统太远,维护成本压垮商业模式。

于是热潮退去,资金收缩,人才转向,留下一个听起来很冷的词:AI winter,人工智能寒冬。

但寒冬不是“AI 什么都没留下”。恰恰相反,AI 的每次退潮都会留下下一轮爆发的基础设施:搜索、规则、统计学习、神经网络、GPU、数据集、评测体系、开源框架、工具调用。今天的大模型和智能体,不是凭空出现的新物种,而是过去七十年反复失败、修正、积累后的结果。

所以这篇文章不想把 AI 历史写成“谁在几年发明了什么”的流水账。更重要的问题是:为什么每一代人都曾相信 AGI 快到了?他们为什么失败?而今天这一次,我们是不是又站在同样的位置上?

先看一张时间表:AI 的历史不是直线,而是反复起伏

AI 起伏时间表:为什么每一代人都以为 AGI 将至

图源:本文自制信息图;依据 Dartmouth Proposal、ALPAC Report、Lighthill Report、IPSJ Fifth Generation Computer Project、DARPA Strategic Computing、IBM Deep Blue、NeurIPS、OpenAI、Stanford AI Index 等资料整理。

时间阶段标志事件当时为什么像 AGI 将至后来证明缺了什么
1950-1956理论起点图灵测试、达特茅斯会议智能似乎可以被形式化描述问题被提出,但工程路径还很粗糙
1956-1969第一轮热潮符号主义、Logic Theorist、GPS、感知机推理、语言、学习都出现了可演示系统玩具世界有效,开放世界失控
1966-1974第一次寒冬ALPAC 报告、Lighthill 报告机器翻译、机器人、通用推理承诺过高数据、算力、常识、组合爆炸全部暴露
1975-1987专家系统复兴MYCIN、XCON、日本第五代计算机、DARPA Strategic Computing知识库加推理机像企业级“智能大脑”规则脆、知识获取贵、维护成本高
1987-1993第二次寒冬Lisp 机器退潮、专家系统商业化受挫商业 AI 被寄予厚望硬件生态错位,系统难以规模化
1990-2011低调实用期SVM、HMM、统计机器翻译、Deep Blue、搜索和广告AI 不再高喊 AGI,却进入真实业务能解决窄任务,不能解决通用智能
2012-2016深度学习爆发AlexNet、GPU、ImageNet、AlphaGo感知能力突然跨过实用阈值仍依赖数据、算力和特定任务定义
2017-2022基础模型形成Transformer、BERT、GPT-3、ChatGPT语言模型像是统一的人机接口可靠性、事实性、长期规划仍不稳
2023-2026智能体热潮多模态、工具调用、代码执行、推理模型、DeepSeek-R1“AGI 将至”的叙事再次出现成本、权限、评测、真实闭环仍未解决

如果平台支持 Mermaid,下面这段可以直接渲染成甘特图;不支持 Mermaid 的平台,可以看上面的 PNG 版。

gantt
    title AI 热潮、寒冬与重启:1950-2026
    dateFormat  YYYY-MM-DD
    axisFormat  %Y
    section 理论起点
    图灵测试与达特茅斯命名 AI       :milestone, m1, 1956-08-31, 0d
    section 第一轮热潮
    符号主义与感知机                 :active, a1, 1956-01-01, 1969-12-31
    section 第一次寒冬
    ALPAC 与机器翻译退潮             :crit, w1, 1966-01-01, 1974-12-31
    Lighthill 报告后的收缩           :crit, w2, 1973-01-01, 1974-12-31
    section 专家系统时代
    MYCIN、XCON 与企业知识系统        :active, e1, 1975-01-01, 1987-12-31
    日本第五代计算机与 DARPA SCI      :active, e2, 1982-01-01, 1993-12-31
    section 第二次寒冬
    Lisp 机器与专家系统退潮           :crit, w3, 1987-01-01, 1993-12-31
    section 低调实用期
    统计学习、SVM、搜索、广告、Deep Blue :done, s1, 1990-01-01, 2011-12-31
    section 深度学习复兴
    AlexNet、GPU、ImageNet、AlphaGo   :active, d1, 2012-01-01, 2016-12-31
    section 基础模型
    Transformer、BERT、GPT-3、ChatGPT :active, f1, 2017-01-01, 2022-12-31
    section 智能体热潮
    多模态、工具调用、推理模型、智能体 :active, g1, 2023-01-01, 2026-12-31

AI 的热潮与寒冬时间线

图源:本文自制信息图;依据 Dartmouth Proposal、ALPAC Report、Lighthill Report、IPSJ Fifth Generation Computer Project、IBM Deep Blue、NeurIPS、OpenAI、Stanford AI Index 等资料整理。

1. 一开始,AI 就带着“通用智能”的野心

1950 年,Alan Turing 在《Computing Machinery and Intelligence》里提出了那个后来被不断引用的问题:机器会思考吗?

他没有陷入“思考”这个词到底如何定义的哲学泥潭,而是换了一个更工程化的问题:如果一台机器在对话中能让人难以区分它和人,我们应该怎样判断它?后来人们把这个思想实验称为图灵测试。

图灵测试真正重要的地方,不是证明机器有意识,而是把“智能”从神秘现象拉进了可实验、可建造、可争论的工程世界。

1956 年,达特茅斯会议让这个领域正式获得名字:Artificial Intelligence。John McCarthy、Marvin Minsky、Claude Shannon、Nathaniel Rochester 等人在更早的 1955 年提案中写下一个极其大胆的假设:学习和智能的每个方面,原则上都可以被精确描述,从而让机器模拟。

1955 年达特茅斯人工智能研究项目提案

图源:Wikimedia Commons,John McCarthy 等人《A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence》,1955,Public Domain。

今天回头看,这个假设太乐观了。可也正是这种乐观,塑造了 AI 的底色。AI 从诞生起就不是单纯做一个翻译工具、分类器或聊天机器人,它一直隐含着一个更大的目标:能否把人的推理、学习、语言、感知、规划拆成机器可以执行的机制?

换句话说,AGI 的影子从第一天就在场。

2. 第一轮信仰:把世界写成规则

早期 AI 最有代表性的路线,是符号主义。

它的直觉很自然:人类会推理、下棋、证明定理、做计划,是因为我们能够操作符号。如果机器也能操作符号、应用规则、搜索可能路径,它就应该能表现出智能。

这条路线并不幼稚。早期 AI 确实做出了许多令人惊讶的演示:Logic Theorist 能证明数学定理,General Problem Solver 试图用统一框架解决问题,ELIZA 用模式匹配模拟心理咨询式对话,积木世界里的程序可以规划如何移动方块。

问题在于,这些成功大多发生在“玩具世界”里。

所谓玩具世界,不是说研究者不认真,而是环境被极度简化:对象数量有限,规则清楚,目标明确,输入干净。只要世界足够小,搜索和规则就会显得非常聪明。可一旦进入真实世界,麻烦就来了。

真实语言有歧义、隐喻、省略和上下文。真实视觉有遮挡、光照、噪声和视角变化。真实机器人要面对摩擦、重量、传感器误差、空间限制和意外情况。真实常识更难写成规则:一个杯子可以装水,也可以当镇纸;一句话可能是请求,也可能是讽刺;“门开着”可能意味着欢迎,也可能意味着危险。

早期符号主义撞上的,不是简单的程序 bug,而是现实世界的开放性。

这也是第一次 AI 热潮的核心教训:在封闭问题上像智能,不等于拥有通用智能。

3. 感知机:神经网络第一次被过度想象

与符号主义几乎同时出现的,是神经网络路线。

Frank Rosenblatt 的感知机是这一派的早期标志。它的思想很接近今天机器学习的基本直觉:不要把规则全部写死,而是让机器从样本中调整权重,逐渐学会分类。

1958 年前后,感知机引发了非常强烈的想象。Cornell Chronicle 回顾这段历史时提到,当时报纸标题把它称为“会通过做事学习”的海军装置,《纽约客》甚至把它看成第一个真正挑战人脑的机器。

Rosenblatt 感知机示意图

图源:Wikimedia Commons,Kirdin、Sidorov、Zolotykh 根据 Rosenblatt 1962 年著作重绘,CC BY 4.0。

这听起来和今天的大模型热潮很像:一个真实的技术突破,被迅速投射成更大的智能叙事。

感知机的问题在于,它太浅了。当时的模型、数据和算力都不足以处理复杂非线性问题。1969 年,Minsky 和 Papert 的《Perceptrons》系统分析了这类模型的局限。后来很多人把这本书视为神经网络退潮的重要节点。

严格说,神经网络并没有被“证明没用”。更准确的说法是:当时那一代神经网络还没有足够的结构、训练方法、算力和数据,支撑它兑现媒体和资助方想象中的能力。

这又留下一个熟悉的模式:方向未必错,但时间点太早。

4. 机器翻译的退潮:冷战需求推高了预期

20 世纪中期,机器翻译曾是 AI 最受期待的应用之一。

原因很现实:冷战时期,美国需要处理大量俄语科技资料和情报文本。机器如果能自动翻译,就不只是学术突破,而是国家能力。1954 年 Georgetown-IBM 机器翻译演示让外界看到希望,很多人相信自动翻译很快会成熟。

但语言比想象中难得多。词典替换不等于翻译,语法规则不等于理解,技术文献里的专业语境、歧义和背景知识都很难处理。

1966 年,美国 National Research Council 的 ALPAC 报告发布。它不是简单否定计算语言学,而是指出,当时的机器翻译距离实用目标很远,短期投入产出不理想。报告之后,美国对机器翻译的支持明显收缩,机器翻译成为第一轮 AI 寒冬的重要导火索之一。

这次退潮非常典型:需求是真的,方向也是真的,但承诺的时间表不是真的。

5. Lighthill 报告:机器人与通用推理被现实击穿

1973 年,英国的 Lighthill Report 对 AI 研究作出严厉评估。报告尤其质疑那些试图把机器人、语言、视觉和常识推理统一起来的研究。

Lighthill 看到的问题,今天读起来仍然熟悉:AI 在清晰目标上有一些成绩,但很多宏大承诺没有兑现;机器人研究被限制在棋盘、桌面、积木世界这类狭小环境;一旦问题规模扩大,组合爆炸就会吞掉搜索能力。

所谓组合爆炸,可以用一个很简单的例子理解。下棋时每一步都有多个选择,如果只看一步还不难;如果要看十步、二十步,可能分支会指数级增长。真实世界的行动更复杂:物体、位置、目标、限制、意外,每一个变量都会让可能状态暴涨。

人类靠常识和经验快速剪枝,机器当时很难做到。

这就是第一轮寒冬的真正原因:AI 并非没有成果,而是没有兑现“通用智能很快到来”的承诺。

6. 第二轮信仰:专家系统和国家级 AI 计划

到了 1980 年代,AI 又热了起来。

这次热潮的主角不是早期通用推理,而是专家系统。它的思路更务实:既然通用智能太难,那就先把某个专业领域里专家的经验写成规则。医学诊断、化学分析、计算机配置、金融判断,都可以拆成大量 if-then 规则。

MYCIN 是专家系统时代的代表。Britannica 资料显示,MYCIN 从 1972 年开始在 Stanford 开发,用约 500 条规则处理血液感染诊断与治疗建议,表现大致达到血液感染专家水平。

这在当时非常震撼。因为它说明 AI 不一定要先拥有完整常识,也可以在专业领域里表现出高价值。

商业上更成功的例子是 XCON。它帮助 Digital Equipment Corporation 配置 VAX 计算机订单,把复杂配置知识规则化,减少人工错误。专家系统让企业第一次比较清楚地看到:AI 可以进入业务系统,节省真实成本。

于是第二次热潮来了。企业投入,大学扩张,Lisp 机器公司兴起,知识工程师成了热门角色。

更大的故事发生在国家层面。

1982 年,日本通产省启动 Fifth Generation Computer Systems Project,第五代计算机项目。这个计划押注知识信息处理、逻辑编程和并行推理机器。IPSJ Computer Museum 的资料显示,该项目持续 11 年,投入约 540 亿日元,开发了多种 Parallel Inference Machine 原型。

这不是普通科研项目,而是国家战略。它背后有非常明确的产业竞争意识:如果第四代计算机属于美国主机和半导体时代,那么第五代计算机能否由日本定义?

美国和英国也迅速感到压力。DARPA 在 1983 年启动 Strategic Computing Initiative,试图推动先进计算硬件和机器智能,用于自动驾驶地面车辆、飞行员辅助、战场管理等场景。英国则推出 Alvey Programme,试图回应日本第五代计算机带来的冲击。

这就是你提到的那类“冷战时期的大计划”:AI 不再只是实验室里的算法,而被放进国家技术竞争、军事需求、产业政策和计算机工业升级的大框架里。

7. 为什么第二轮又退潮了

专家系统的问题,也不是“完全没用”。

它们的问题是太脆。

规则系统一开始很漂亮:专家说出经验,知识工程师写成规则,推理引擎按规则判断。但随着规则数量增加,系统会变成迷宫。一条规则改了,可能影响几十条规则。专家之间本来就会意见不一致,知识工程师很难把所有隐性经验写清楚。更致命的是,专家系统很难从新数据中自动学习,维护主要依赖人继续访谈、整理、修补。

这叫知识获取瓶颈。

与此同时,专门为 AI 优化的 Lisp 机器被通用工作站和个人电脑在性价比上击穿。硬件市场变化叠加专家系统维护成本,AI 商业泡沫在 1980 年代末到 1990 年代初迅速退潮。

日本第五代计算机也没有成为新一代通用计算平台。它留下了并行计算、逻辑编程、知识处理等技术资产,但没有像 PC、Unix、互联网那样形成主流生态。

这轮失败说明了另一个重要规律:AI 不只要算法正确,还要踩中工程生态、硬件成本、开发者工具、市场需求和维护模式。技术路线如果和产业生态错位,哪怕国家投入很大,也可能无法变成主流平台。

8. 1990 年代到 2000 年代:AI 没死,只是不再高喊 AGI

第二轮寒冬之后,AI 这个词一度变得不那么时髦。很多研究和产品不再主动说自己是 AI,而是换成更低调的名字:机器学习、统计学习、数据挖掘、模式识别、信息检索。

如果你说的“svg”其实是 SVM,也就是支持向量机,那么它正属于这一阶段的代表。1990 年代到 2000 年代,SVM、贝叶斯方法、隐马尔可夫模型、随机森林、条件随机场、统计机器翻译等方法,在搜索、广告、语音、垃圾邮件过滤、推荐系统里大量应用。

这段历史容易被忽略,因为它没有“机器马上像人一样思考”的戏剧感。可它非常关键:AI 从宏大叙事退回工程系统,从追求通用智能转向解决具体任务。

1997 年,IBM Deep Blue 击败国际象棋世界冠军 Garry Kasparov。IBM 官方资料显示,Deep Blue 能每秒评估约 2 亿个棋局位置。它的胜利震动公众,但它并不是今天意义上的大模型,也不是能理解世界的系统。

IBM Deep Blue

图源:Wikimedia Commons,James the photographer 摄于 Computer History Museum,CC BY 2.0;事件信息参考 IBM Deep Blue 官方历史页。

Deep Blue 的意义在于,它证明机器可以用完全不同于人的方式击败人类智力象征。但它也提醒我们:在封闭规则世界里赢,不等于拥有开放世界智能。

这句话放到今天仍然有用。模型会做竞赛题,不代表它能稳定处理真实业务流程;智能体能完成演示,不代表它能长期无人监管。

9. 深度学习回潮:这次不是因为概念新,而是燃料够了

神经网络真正重新成为主角,要等到几个条件同时成熟:互联网数据、GPU、反向传播、深层网络训练技巧、开源框架、ImageNet 这样的数据集和竞赛。

1986 年,Rumelhart、Hinton、Williams 的反向传播论文已经让多层神经网络有了关键训练方法。但 1980 年代和 1990 年代早期,它还缺少足够的数据和算力。

2012 年,AlexNet 在 ImageNet 竞赛中取得压倒性成绩。原论文显示,它使用深度卷积神经网络和 GPU 训练,在 ILSVRC-2012 中取得 15.3% 的 top-5 test error,显著低于第二名 26.2%。

AlexNet 架构示意图

图源:Wikimedia Commons,Daniel Voigt Godoy / dl-visuals,CC BY 4.0;事件信息参考 Krizhevsky、Sutskever、Hinton 2012 年 NeurIPS 论文。

这次突破不是单点发明,而是多条曲线同时到位:数据足够大,GPU 足够快,模型足够深,训练方法足够稳,任务评测足够清晰。

2016 年,AlphaGo 击败李世石。Google DeepMind 的官方资料强调,AlphaGo 结合了深度神经网络、搜索算法和强化学习,并在 2016 年以 4:1 击败李世石。围棋曾被认为远比国际象棋更难暴力搜索,AlphaGo 的胜利让公众重新相信:机器不仅可以算得快,还能在复杂策略空间里找到人类不习惯的路径。

2017 年,Transformer 出现。《Attention Is All You Need》原本是机器翻译论文,但它的影响远远超出翻译。它用注意力机制替代传统循环结构,让模型更容易并行训练,更容易扩大规模,也更容易迁移到语言、代码、图像、音频和多模态任务。

从这里开始,现代大模型的路基本铺开了。

10. ChatGPT:这次热潮为什么来得这么猛

2020 年,GPT-3 论文提出 1750 亿参数语言模型,并展示了 few-shot 能力:模型不必每个任务都重新训练,只要在上下文里给几个例子,就能在许多任务上表现出可用能力。

这一步非常关键。它让人们第一次强烈感到:也许通用能力不是靠给每个任务手写规则,而是来自足够大规模的预训练模型。

2022 年 11 月 30 日,OpenAI 发布 ChatGPT。真正引爆世界的,不只是模型能力,而是交互入口。聊天框让普通人不需要知道 API、参数、训练集、架构,就能直接让模型写邮件、解释论文、改代码、做总结、生成方案。

OpenAI 在 ChatGPT 发布页中也明确写到它的限制:会生成看似合理但错误的答案,对措辞敏感,常常猜测用户意图。这些问题没有阻止它爆发,反而说明了一件事:当一个技术足够有用,社会会先采用,再慢慢补治理、评测和工作流。

2023 年之后,GPT-4、多模态模型、开源大模型、代码模型、推理模型、智能体框架快速发展。2025 年 DeepSeek-R1 又把强化学习增强推理能力推到前台。到了 2026 年,AI 已经从“一个聊天工具”扩展成一整套系统:检索、工具调用、代码执行、浏览器操作、企业知识库、权限控制、日志、评测、审计、人工复核。

这也是为什么今天很多人再次谈 AGI。

11. 今天是不是又一次“AGI 快到了”的历史重演

这个问题不能轻率回答。

一方面,今天确实和过去不一样。

早期 AI 的很多演示只能在实验室玩具世界里工作;今天的大模型已经进入真实办公、编程、教育、客服、搜索、内容生产和科学研究。Stanford AI Index 2026 写到,组织中的 AI 采用率达到 88%,生成式 AI 在三年内达到 53% 的人口采用率,速度超过 PC 和互联网的早期扩散。模型能力也没有停滞,在代码、数学、多模态、科学问答和智能体任务上继续快速提升。

所以,把今天的大模型简单说成“又一个泡沫”,并不严谨。它已经产生真实生产力。

但另一方面,今天也确实有历史重演的危险。

AI Index 2026 也给了一个很清醒的提醒:模型可以在国际数学奥林匹克级别任务上表现很强,却可能在读指针钟这类简单视觉任务上只有约 50.1% 准确率;OSWorld 这类真实电脑操作任务中,智能体成功率从 12% 跃升到约 66%,但仍然大约三次失败一次。

这就是所谓 jagged frontier,锯齿状前沿。AI 不是均匀变聪明,而是在某些任务上突然很强,在另一些人类觉得简单的任务上仍然不稳。

这和历史上的几次热潮非常相似:外界容易把局部能力外推成通用能力,把短期演示外推成长期可靠性,把 benchmark 成绩外推成真实世界责任。

今天真正需要警惕的,不是“AI 没用”,而是“AI 很有用,所以更容易被过度承诺”。

12. 如果下一次寒冬到来,它可能不是全面熄火

过去的 AI 寒冬,通常表现为资金收缩、项目取消、企业倒闭、学术方向降温。

如果未来几年出现新一轮退潮,它未必会像 1970 年代或 1990 年代那样让整个领域冷掉。原因很简单:今天的 AI 已经嵌入太多真实流程,完全退回去不现实。

更可能发生的是局部寒冬。

那些只靠包装概念、没有真实场景、没有成本优势、没有可靠交付的 AI 产品会被清掉;那些把智能体吹成“全自动员工”,却无法处理权限、验收、回滚、责任边界的项目会退潮;那些只用 demo 融资、没有评测和工程体系的团队会被现实教育。

但底层能力不会消失。就像专家系统退潮后,规则引擎没有消失;神经网络低潮后,反向传播没有消失;机器翻译退潮后,计算语言学没有消失。大模型如果退潮,留下来的也会是非常硬的东西:预训练、对齐、推理、检索、工具调用、多模态、模型压缩、评测、安全、AI 原生软件工程。

这才是读 AI 历史最有价值的地方。不要只看谁赢了,也要看失败留下了什么。

13. 一条更可靠的判断标准

如果我们要判断今天是不是 AGI 前夜,不应该只问“模型能不能答对难题”。

更应该问这些问题:

它能不能在陌生环境里稳定完成长任务?能不能知道自己不知道?能不能在错误发生前停下来?能不能解释证据来源?能不能遵守权限?能不能在工具调用失败后恢复?能不能在多天、多周、多系统的流程里保持一致?出了事故以后,责任链条能不能追溯?

这些问题听起来没有“AGI 即将到来”刺激,却更接近真实世界。

历史上 AI 每次退潮,都是因为它在实验室里像智能,在现实世界里不够稳。今天的大模型比过去任何一代 AI 都强,但它也第一次被大规模接入真实世界。能力越强,失败的代价也越高。

所以成熟的态度不是神化,也不是嘲笑。

AI 已经不是玩具。它能真实改变学习、编程、研究、创作和组织协作。但它也还不是可靠的自主主体。它更像一种正在形成的新基础设施:强大、昂贵、不稳定、极具杠杆,需要工程化、制度化和持续验收。

七十年 AI 史告诉我们,真正推动领域前进的从来不是一句“通用智能快来了”,而是每一轮热潮退去之后,仍然站得住的东西。

今天我们要问的,也许不是“AGI 到底什么时候来”,而是:

如果这一次热潮退去,什么会留下来?

资料与图源