曾经我们以为 AGI 将至：AI 七十年热潮、寒冬与重启曾经我们以为 AGI 将至：AI 七十年热潮、寒冬与重启很多人

曾经我们以为 AGI 将至：AI 七十年热潮、寒冬与重启

很多人第一次接触 AI 历史，会以为它是一条从图灵测试、神经网络、深度学习、大模型一路往上的直线。

这其实是误解。

AI 的真实历史更像一条震荡曲线：几乎每隔一二十年，就会出现一次让人激动的突破。研究者相信这次路线对了，政府相信这是国家竞争力，企业相信新产业会爆发，媒体相信“机器快要像人一样思考”。然后现实世界慢慢把问题摊开：规则写不完，常识补不上，数据不够，算力不够，演示系统离真实系统太远，维护成本压垮商业模式。

于是热潮退去，资金收缩，人才转向，留下一个听起来很冷的词：AI winter，人工智能寒冬。

但寒冬不是“AI 什么都没留下”。恰恰相反，AI 的每次退潮都会留下下一轮爆发的基础设施：搜索、规则、统计学习、神经网络、GPU、数据集、评测体系、开源框架、工具调用。今天的大模型和智能体，不是凭空出现的新物种，而是过去七十年反复失败、修正、积累后的结果。

所以这篇文章不想把 AI 历史写成“谁在几年发明了什么”的流水账。更重要的问题是：为什么每一代人都曾相信 AGI 快到了？他们为什么失败？而今天这一次，我们是不是又站在同样的位置上？

先看一张时间表：AI 的历史不是直线，而是反复起伏

AI 起伏时间表：为什么每一代人都以为 AGI 将至

图源：本文自制信息图；依据 Dartmouth Proposal、ALPAC Report、Lighthill Report、IPSJ Fifth Generation Computer Project、DARPA Strategic Computing、IBM Deep Blue、NeurIPS、OpenAI、Stanford AI Index 等资料整理。

时间	阶段	标志事件	当时为什么像 AGI 将至	后来证明缺了什么
1950-1956	理论起点	图灵测试、达特茅斯会议	智能似乎可以被形式化描述	问题被提出，但工程路径还很粗糙
1956-1969	第一轮热潮	符号主义、Logic Theorist、GPS、感知机	推理、语言、学习都出现了可演示系统	玩具世界有效，开放世界失控
1966-1974	第一次寒冬	ALPAC 报告、Lighthill 报告	机器翻译、机器人、通用推理承诺过高	数据、算力、常识、组合爆炸全部暴露
1975-1987	专家系统复兴	MYCIN、XCON、日本第五代计算机、DARPA Strategic Computing	知识库加推理机像企业级“智能大脑”	规则脆、知识获取贵、维护成本高
1987-1993	第二次寒冬	Lisp 机器退潮、专家系统商业化受挫	商业 AI 被寄予厚望	硬件生态错位，系统难以规模化
1990-2011	低调实用期	SVM、HMM、统计机器翻译、Deep Blue、搜索和广告	AI 不再高喊 AGI，却进入真实业务	能解决窄任务，不能解决通用智能
2012-2016	深度学习爆发	AlexNet、GPU、ImageNet、AlphaGo	感知能力突然跨过实用阈值	仍依赖数据、算力和特定任务定义
2017-2022	基础模型形成	Transformer、BERT、GPT-3、ChatGPT	语言模型像是统一的人机接口	可靠性、事实性、长期规划仍不稳
2023-2026	智能体热潮	多模态、工具调用、代码执行、推理模型、DeepSeek-R1	“AGI 将至”的叙事再次出现	成本、权限、评测、真实闭环仍未解决

如果平台支持 Mermaid，下面这段可以直接渲染成甘特图；不支持 Mermaid 的平台，可以看上面的 PNG 版。

gantt
    title AI 热潮、寒冬与重启：1950-2026
    dateFormat  YYYY-MM-DD
    axisFormat  %Y
    section 理论起点
    图灵测试与达特茅斯命名 AI       :milestone, m1, 1956-08-31, 0d
    section 第一轮热潮
    符号主义与感知机                 :active, a1, 1956-01-01, 1969-12-31
    section 第一次寒冬
    ALPAC 与机器翻译退潮             :crit, w1, 1966-01-01, 1974-12-31
    Lighthill 报告后的收缩           :crit, w2, 1973-01-01, 1974-12-31
    section 专家系统时代
    MYCIN、XCON 与企业知识系统        :active, e1, 1975-01-01, 1987-12-31
    日本第五代计算机与 DARPA SCI      :active, e2, 1982-01-01, 1993-12-31
    section 第二次寒冬
    Lisp 机器与专家系统退潮           :crit, w3, 1987-01-01, 1993-12-31
    section 低调实用期
    统计学习、SVM、搜索、广告、Deep Blue :done, s1, 1990-01-01, 2011-12-31
    section 深度学习复兴
    AlexNet、GPU、ImageNet、AlphaGo   :active, d1, 2012-01-01, 2016-12-31
    section 基础模型
    Transformer、BERT、GPT-3、ChatGPT :active, f1, 2017-01-01, 2022-12-31
    section 智能体热潮
    多模态、工具调用、推理模型、智能体 :active, g1, 2023-01-01, 2026-12-31

AI 的热潮与寒冬时间线

图源：本文自制信息图；依据 Dartmouth Proposal、ALPAC Report、Lighthill Report、IPSJ Fifth Generation Computer Project、IBM Deep Blue、NeurIPS、OpenAI、Stanford AI Index 等资料整理。

1. 一开始，AI 就带着“通用智能”的野心

1950 年，Alan Turing 在《Computing Machinery and Intelligence》里提出了那个后来被不断引用的问题：机器会思考吗？

他没有陷入“思考”这个词到底如何定义的哲学泥潭，而是换了一个更工程化的问题：如果一台机器在对话中能让人难以区分它和人，我们应该怎样判断它？后来人们把这个思想实验称为图灵测试。

图灵测试真正重要的地方，不是证明机器有意识，而是把“智能”从神秘现象拉进了可实验、可建造、可争论的工程世界。

1956 年，达特茅斯会议让这个领域正式获得名字：Artificial Intelligence。John McCarthy、Marvin Minsky、Claude Shannon、Nathaniel Rochester 等人在更早的 1955 年提案中写下一个极其大胆的假设：学习和智能的每个方面，原则上都可以被精确描述，从而让机器模拟。

1955 年达特茅斯人工智能研究项目提案

图源：Wikimedia Commons，John McCarthy 等人《A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence》，1955，Public Domain。

今天回头看，这个假设太乐观了。可也正是这种乐观，塑造了 AI 的底色。AI 从诞生起就不是单纯做一个翻译工具、分类器或聊天机器人，它一直隐含着一个更大的目标：能否把人的推理、学习、语言、感知、规划拆成机器可以执行的机制？

换句话说，AGI 的影子从第一天就在场。

2. 第一轮信仰：把世界写成规则

早期 AI 最有代表性的路线，是符号主义。

它的直觉很自然：人类会推理、下棋、证明定理、做计划，是因为我们能够操作符号。如果机器也能操作符号、应用规则、搜索可能路径，它就应该能表现出智能。

这条路线并不幼稚。早期 AI 确实做出了许多令人惊讶的演示：Logic Theorist 能证明数学定理，General Problem Solver 试图用统一框架解决问题，ELIZA 用模式匹配模拟心理咨询式对话，积木世界里的程序可以规划如何移动方块。

问题在于，这些成功大多发生在“玩具世界”里。

所谓玩具世界，不是说研究者不认真，而是环境被极度简化：对象数量有限，规则清楚，目标明确，输入干净。只要世界足够小，搜索和规则就会显得非常聪明。可一旦进入真实世界，麻烦就来了。

真实语言有歧义、隐喻、省略和上下文。真实视觉有遮挡、光照、噪声和视角变化。真实机器人要面对摩擦、重量、传感器误差、空间限制和意外情况。真实常识更难写成规则：一个杯子可以装水，也可以当镇纸；一句话可能是请求，也可能是讽刺；“门开着”可能意味着欢迎，也可能意味着危险。

早期符号主义撞上的，不是简单的程序 bug，而是现实世界的开放性。

这也是第一次 AI 热潮的核心教训：在封闭问题上像智能，不等于拥有通用智能。

3. 感知机：神经网络第一次被过度想象

与符号主义几乎同时出现的，是神经网络路线。

Frank Rosenblatt 的感知机是这一派的早期标志。它的思想很接近今天机器学习的基本直觉：不要把规则全部写死，而是让机器从样本中调整权重，逐渐学会分类。

1958 年前后，感知机引发了非常强烈的想象。Cornell Chronicle 回顾这段历史时提到，当时报纸标题把它称为“会通过做事学习”的海军装置，《纽约客》甚至把它看成第一个真正挑战人脑的机器。

Rosenblatt 感知机示意图

图源：Wikimedia Commons，Kirdin、Sidorov、Zolotykh 根据 Rosenblatt 1962 年著作重绘，CC BY 4.0。

这听起来和今天的大模型热潮很像：一个真实的技术突破，被迅速投射成更大的智能叙事。

感知机的问题在于，它太浅了。当时的模型、数据和算力都不足以处理复杂非线性问题。1969 年，Minsky 和 Papert 的《Perceptrons》系统分析了这类模型的局限。后来很多人把这本书视为神经网络退潮的重要节点。

严格说，神经网络并没有被“证明没用”。更准确的说法是：当时那一代神经网络还没有足够的结构、训练方法、算力和数据，支撑它兑现媒体和资助方想象中的能力。

这又留下一个熟悉的模式：方向未必错，但时间点太早。

4. 机器翻译的退潮：冷战需求推高了预期

20 世纪中期，机器翻译曾是 AI 最受期待的应用之一。

原因很现实：冷战时期，美国需要处理大量俄语科技资料和情报文本。机器如果能自动翻译，就不只是学术突破，而是国家能力。1954 年 Georgetown-IBM 机器翻译演示让外界看到希望，很多人相信自动翻译很快会成熟。

但语言比想象中难得多。词典替换不等于翻译，语法规则不等于理解，技术文献里的专业语境、歧义和背景知识都很难处理。

1966 年，美国 National Research Council 的 ALPAC 报告发布。它不是简单否定计算语言学，而是指出，当时的机器翻译距离实用目标很远，短期投入产出不理想。报告之后，美国对机器翻译的支持明显收缩，机器翻译成为第一轮 AI 寒冬的重要导火索之一。

这次退潮非常典型：需求是真的，方向也是真的，但承诺的时间表不是真的。

5. Lighthill 报告：机器人与通用推理被现实击穿

1973 年，英国的 Lighthill Report 对 AI 研究作出严厉评估。报告尤其质疑那些试图把机器人、语言、视觉和常识推理统一起来的研究。

Lighthill 看到的问题，今天读起来仍然熟悉：AI 在清晰目标上有一些成绩，但很多宏大承诺没有兑现；机器人研究被限制在棋盘、桌面、积木世界这类狭小环境；一旦问题规模扩大，组合爆炸就会吞掉搜索能力。

所谓组合爆炸，可以用一个很简单的例子理解。下棋时每一步都有多个选择，如果只看一步还不难；如果要看十步、二十步，可能分支会指数级增长。真实世界的行动更复杂：物体、位置、目标、限制、意外，每一个变量都会让可能状态暴涨。

人类靠常识和经验快速剪枝，机器当时很难做到。

这就是第一轮寒冬的真正原因：AI 并非没有成果，而是没有兑现“通用智能很快到来”的承诺。

6. 第二轮信仰：专家系统和国家级 AI 计划

到了 1980 年代，AI 又热了起来。

这次热潮的主角不是早期通用推理，而是专家系统。它的思路更务实：既然通用智能太难，那就先把某个专业领域里专家的经验写成规则。医学诊断、化学分析、计算机配置、金融判断，都可以拆成大量 if-then 规则。

MYCIN 是专家系统时代的代表。Britannica 资料显示，MYCIN 从 1972 年开始在 Stanford 开发，用约 500 条规则处理血液感染诊断与治疗建议，表现大致达到血液感染专家水平。

这在当时非常震撼。因为它说明 AI 不一定要先拥有完整常识，也可以在专业领域里表现出高价值。

商业上更成功的例子是 XCON。它帮助 Digital Equipment Corporation 配置 VAX 计算机订单，把复杂配置知识规则化，减少人工错误。专家系统让企业第一次比较清楚地看到：AI 可以进入业务系统，节省真实成本。

于是第二次热潮来了。企业投入，大学扩张，Lisp 机器公司兴起，知识工程师成了热门角色。

更大的故事发生在国家层面。

1982 年，日本通产省启动 Fifth Generation Computer Systems Project，第五代计算机项目。这个计划押注知识信息处理、逻辑编程和并行推理机器。IPSJ Computer Museum 的资料显示，该项目持续 11 年，投入约 540 亿日元，开发了多种 Parallel Inference Machine 原型。

这不是普通科研项目，而是国家战略。它背后有非常明确的产业竞争意识：如果第四代计算机属于美国主机和半导体时代，那么第五代计算机能否由日本定义？

美国和英国也迅速感到压力。DARPA 在 1983 年启动 Strategic Computing Initiative，试图推动先进计算硬件和机器智能，用于自动驾驶地面车辆、飞行员辅助、战场管理等场景。英国则推出 Alvey Programme，试图回应日本第五代计算机带来的冲击。

这就是你提到的那类“冷战时期的大计划”：AI 不再只是实验室里的算法，而被放进国家技术竞争、军事需求、产业政策和计算机工业升级的大框架里。

7. 为什么第二轮又退潮了

专家系统的问题，也不是“完全没用”。

它们的问题是太脆。

规则系统一开始很漂亮：专家说出经验，知识工程师写成规则，推理引擎按规则判断。但随着规则数量增加，系统会变成迷宫。一条规则改了，可能影响几十条规则。专家之间本来就会意见不一致，知识工程师很难把所有隐性经验写清楚。更致命的是，专家系统很难从新数据中自动学习，维护主要依赖人继续访谈、整理、修补。

这叫知识获取瓶颈。

与此同时，专门为 AI 优化的 Lisp 机器被通用工作站和个人电脑在性价比上击穿。硬件市场变化叠加专家系统维护成本，AI 商业泡沫在 1980 年代末到 1990 年代初迅速退潮。

日本第五代计算机也没有成为新一代通用计算平台。它留下了并行计算、逻辑编程、知识处理等技术资产，但没有像 PC、Unix、互联网那样形成主流生态。

这轮失败说明了另一个重要规律：AI 不只要算法正确，还要踩中工程生态、硬件成本、开发者工具、市场需求和维护模式。技术路线如果和产业生态错位，哪怕国家投入很大，也可能无法变成主流平台。

8. 1990 年代到 2000 年代：AI 没死，只是不再高喊 AGI

第二轮寒冬之后，AI 这个词一度变得不那么时髦。很多研究和产品不再主动说自己是 AI，而是换成更低调的名字：机器学习、统计学习、数据挖掘、模式识别、信息检索。

如果你说的“svg”其实是 SVM，也就是支持向量机，那么它正属于这一阶段的代表。1990 年代到 2000 年代，SVM、贝叶斯方法、隐马尔可夫模型、随机森林、条件随机场、统计机器翻译等方法，在搜索、广告、语音、垃圾邮件过滤、推荐系统里大量应用。

这段历史容易被忽略，因为它没有“机器马上像人一样思考”的戏剧感。可它非常关键：AI 从宏大叙事退回工程系统，从追求通用智能转向解决具体任务。

1997 年，IBM Deep Blue 击败国际象棋世界冠军 Garry Kasparov。IBM 官方资料显示，Deep Blue 能每秒评估约 2 亿个棋局位置。它的胜利震动公众，但它并不是今天意义上的大模型，也不是能理解世界的系统。

IBM Deep Blue

图源：Wikimedia Commons，James the photographer 摄于 Computer History Museum，CC BY 2.0；事件信息参考 IBM Deep Blue 官方历史页。

Deep Blue 的意义在于，它证明机器可以用完全不同于人的方式击败人类智力象征。但它也提醒我们：在封闭规则世界里赢，不等于拥有开放世界智能。

这句话放到今天仍然有用。模型会做竞赛题，不代表它能稳定处理真实业务流程；智能体能完成演示，不代表它能长期无人监管。

9. 深度学习回潮：这次不是因为概念新，而是燃料够了

神经网络真正重新成为主角，要等到几个条件同时成熟：互联网数据、GPU、反向传播、深层网络训练技巧、开源框架、ImageNet 这样的数据集和竞赛。

1986 年，Rumelhart、Hinton、Williams 的反向传播论文已经让多层神经网络有了关键训练方法。但 1980 年代和 1990 年代早期，它还缺少足够的数据和算力。

2012 年，AlexNet 在 ImageNet 竞赛中取得压倒性成绩。原论文显示，它使用深度卷积神经网络和 GPU 训练，在 ILSVRC-2012 中取得 15.3% 的 top-5 test error，显著低于第二名 26.2%。

AlexNet 架构示意图

图源：Wikimedia Commons，Daniel Voigt Godoy / dl-visuals，CC BY 4.0；事件信息参考 Krizhevsky、Sutskever、Hinton 2012 年 NeurIPS 论文。

这次突破不是单点发明，而是多条曲线同时到位：数据足够大，GPU 足够快，模型足够深，训练方法足够稳，任务评测足够清晰。

2016 年，AlphaGo 击败李世石。Google DeepMind 的官方资料强调，AlphaGo 结合了深度神经网络、搜索算法和强化学习，并在 2016 年以 4:1 击败李世石。围棋曾被认为远比国际象棋更难暴力搜索，AlphaGo 的胜利让公众重新相信：机器不仅可以算得快，还能在复杂策略空间里找到人类不习惯的路径。

2017 年，Transformer 出现。《Attention Is All You Need》原本是机器翻译论文，但它的影响远远超出翻译。它用注意力机制替代传统循环结构，让模型更容易并行训练，更容易扩大规模，也更容易迁移到语言、代码、图像、音频和多模态任务。

从这里开始，现代大模型的路基本铺开了。

10. ChatGPT：这次热潮为什么来得这么猛

2020 年，GPT-3 论文提出 1750 亿参数语言模型，并展示了 few-shot 能力：模型不必每个任务都重新训练，只要在上下文里给几个例子，就能在许多任务上表现出可用能力。

这一步非常关键。它让人们第一次强烈感到：也许通用能力不是靠给每个任务手写规则，而是来自足够大规模的预训练模型。

2022 年 11 月 30 日，OpenAI 发布 ChatGPT。真正引爆世界的，不只是模型能力，而是交互入口。聊天框让普通人不需要知道 API、参数、训练集、架构，就能直接让模型写邮件、解释论文、改代码、做总结、生成方案。

OpenAI 在 ChatGPT 发布页中也明确写到它的限制：会生成看似合理但错误的答案，对措辞敏感，常常猜测用户意图。这些问题没有阻止它爆发，反而说明了一件事：当一个技术足够有用，社会会先采用，再慢慢补治理、评测和工作流。

2023 年之后，GPT-4、多模态模型、开源大模型、代码模型、推理模型、智能体框架快速发展。2025 年 DeepSeek-R1 又把强化学习增强推理能力推到前台。到了 2026 年，AI 已经从“一个聊天工具”扩展成一整套系统：检索、工具调用、代码执行、浏览器操作、企业知识库、权限控制、日志、评测、审计、人工复核。

这也是为什么今天很多人再次谈 AGI。

11. 今天是不是又一次“AGI 快到了”的历史重演

这个问题不能轻率回答。

一方面，今天确实和过去不一样。

早期 AI 的很多演示只能在实验室玩具世界里工作；今天的大模型已经进入真实办公、编程、教育、客服、搜索、内容生产和科学研究。Stanford AI Index 2026 写到，组织中的 AI 采用率达到 88%，生成式 AI 在三年内达到 53% 的人口采用率，速度超过 PC 和互联网的早期扩散。模型能力也没有停滞，在代码、数学、多模态、科学问答和智能体任务上继续快速提升。

所以，把今天的大模型简单说成“又一个泡沫”，并不严谨。它已经产生真实生产力。

但另一方面，今天也确实有历史重演的危险。

AI Index 2026 也给了一个很清醒的提醒：模型可以在国际数学奥林匹克级别任务上表现很强，却可能在读指针钟这类简单视觉任务上只有约 50.1% 准确率；OSWorld 这类真实电脑操作任务中，智能体成功率从 12% 跃升到约 66%，但仍然大约三次失败一次。

这就是所谓 jagged frontier，锯齿状前沿。AI 不是均匀变聪明，而是在某些任务上突然很强，在另一些人类觉得简单的任务上仍然不稳。

这和历史上的几次热潮非常相似：外界容易把局部能力外推成通用能力，把短期演示外推成长期可靠性，把 benchmark 成绩外推成真实世界责任。

今天真正需要警惕的，不是“AI 没用”，而是“AI 很有用，所以更容易被过度承诺”。

12. 如果下一次寒冬到来，它可能不是全面熄火

过去的 AI 寒冬，通常表现为资金收缩、项目取消、企业倒闭、学术方向降温。

如果未来几年出现新一轮退潮，它未必会像 1970 年代或 1990 年代那样让整个领域冷掉。原因很简单：今天的 AI 已经嵌入太多真实流程，完全退回去不现实。

更可能发生的是局部寒冬。

那些只靠包装概念、没有真实场景、没有成本优势、没有可靠交付的 AI 产品会被清掉；那些把智能体吹成“全自动员工”，却无法处理权限、验收、回滚、责任边界的项目会退潮；那些只用 demo 融资、没有评测和工程体系的团队会被现实教育。

但底层能力不会消失。就像专家系统退潮后，规则引擎没有消失；神经网络低潮后，反向传播没有消失；机器翻译退潮后，计算语言学没有消失。大模型如果退潮，留下来的也会是非常硬的东西：预训练、对齐、推理、检索、工具调用、多模态、模型压缩、评测、安全、AI 原生软件工程。

这才是读 AI 历史最有价值的地方。不要只看谁赢了，也要看失败留下了什么。

13. 一条更可靠的判断标准

如果我们要判断今天是不是 AGI 前夜，不应该只问“模型能不能答对难题”。

更应该问这些问题：

它能不能在陌生环境里稳定完成长任务？能不能知道自己不知道？能不能在错误发生前停下来？能不能解释证据来源？能不能遵守权限？能不能在工具调用失败后恢复？能不能在多天、多周、多系统的流程里保持一致？出了事故以后，责任链条能不能追溯？

这些问题听起来没有“AGI 即将到来”刺激，却更接近真实世界。

历史上 AI 每次退潮，都是因为它在实验室里像智能，在现实世界里不够稳。今天的大模型比过去任何一代 AI 都强，但它也第一次被大规模接入真实世界。能力越强，失败的代价也越高。

所以成熟的态度不是神化，也不是嘲笑。

AI 已经不是玩具。它能真实改变学习、编程、研究、创作和组织协作。但它也还不是可靠的自主主体。它更像一种正在形成的新基础设施：强大、昂贵、不稳定、极具杠杆，需要工程化、制度化和持续验收。

七十年 AI 史告诉我们，真正推动领域前进的从来不是一句“通用智能快来了”，而是每一轮热潮退去之后，仍然站得住的东西。

今天我们要问的，也许不是“AGI 到底什么时候来”，而是：

如果这一次热潮退去，什么会留下来？

资料与图源

Alan Turing，《Computing Machinery and Intelligence》，1950，Computer History Museum：www.computerhistory.org/chess/doc-4…
John McCarthy 等，《A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence》，1955，Wikimedia Commons / Stanford 原始来源：commons.wikimedia.org/wiki/File:A…
Frank Rosenblatt 感知机历史，Cornell Chronicle：news.cornell.edu/stories/201…
ALPAC Report，《Language and Machines: Computers in Translation and Linguistics》，1966：www.mt-archive.net/50/ALPAC-19…
James Lighthill，《Artificial Intelligence: A General Survey》，1973：www.aiai.ed.ac.uk/events/ligh…
IPSJ Computer Museum，日本 Fifth Generation Computer Project：museum.ipsj.or.jp/en/computer…
Alex Roland 与 Philip Shiman，《Strategic Computing: DARPA and the Quest for Machine Intelligence, 1983-1993》：gwern.net/doc/cs/hard…
MYCIN 介绍，Britannica：www.britannica.com/technology/…
IBM Deep Blue 官方历史页：www.ibm.com/history/dee…
Krizhevsky、Sutskever、Hinton，《ImageNet Classification with Deep Convolutional Neural Networks》，NeurIPS 2012：papers.nips.cc/paper_files…
Google DeepMind，AlphaGo 官方资料：deepmind.google/research/al…
Vaswani 等，《Attention Is All You Need》，NeurIPS 2017：papers.neurips.cc/paper_files…
Brown 等，《Language Models are Few-Shot Learners》，NeurIPS 2020：papers.neurips.cc/paper/2020/…
OpenAI，Introducing ChatGPT，2022：openai.com/index/chatg…
OpenAI Charter：openai.com/charter/
DeepSeek-R1，arXiv / Nature reference：arxiv.org/abs/2501.12…
Stanford HAI，2026 AI Index Report：hai.stanford.edu/ai-index/20…