人类数据快喂完了，然后呢？8年前，AI就证明了不需要人类也能碾压人类。但整个行业假装没看见。 2017年，AlphaGo

8年前，AI就证明了不需要人类也能碾压人类。但整个行业假装没看见。

2017年，AlphaGo Zero。

不看一盘人类棋谱，自己跟自己下棋，3天后100比0。

但没人当回事。围棋嘛，跟现实世界有什么关系。

接下来8年，所有人走了一条完全相反的路——往模型里猛灌人类数据。

GPT、Claude、Gemini，全是这么练出来的。效果也确实好。

直到数据开始见底。

第一条路，快走到头了

Epoch AI的预测：高质量文本大约300万亿token，最快2026年耗尽。

Llama 3一个模型就吃了15万亿。一个互联网，几十家公司在抢。

连Ilya都在NeurIPS上说了：

预训练将毫无疑问地终结。因为我们只有一个互联网。

数据墙

这话从Ilya嘴里说出来，分量不一样。

OpenAI联合创始人，前首席科学家，大模型路线的缔造者之一。

连他都承认天花板了。

那另一条路呢？8年前AlphaGo Zero走的那条——不学人类，自己悟。

当时觉得那事挺震撼，但好像跟"做产品"没关系。

围棋是围棋，现实世界是现实世界。

但最近两年发生了一些事，让我改了想法。

早就有人说过了

2019年3月，强化学习之父、图灵奖得主Richard Sutton写了一篇博文。

《The Bitter Lesson》——苦涩的教训。

只有几百字，但在AI圈引发了一场长达数年的辩论。

苦涩教训

核心就一句话：

70年的AI研究史反复证明了一件事——利用算力做通用搜索和学习的方法，最终总是会赢。而那些试图把人类知识硬编码进系统的方法，短期有效，长期必输。

他举了很多例子。

国际象棋，最早大家拼命往里塞特级大师的棋路知识。

最后Deep Blue赢卡斯帕罗夫，靠的不是更高级的棋路知识，而是暴力搜索。

语音识别，几十年里大家在研究人类发音的物理模型、语言学规则。

最后统计学习方法用大量数据一遍遍训练，把这些方法全干掉了。

计算机视觉也一样，手工设计的特征提取器被深度学习碾压。

研究者的直觉永远是：让我把聪明才智嵌入系统。

但最后赢的永远是那个最笨的方法——别嵌入什么聪明才智了，给够算力，让系统自己学。

Sutton管这叫**"苦涩的教训"**。

苦涩在哪？人类不甘心，总想走捷径，但走捷径就是会输。

说实话，我第一次读这篇博文的时候觉得太极端了。

但这两年回头看，越看越觉得他是对的。

Sutton写这篇文章的时候，GPT-2刚发布。

讽刺的是，接下来8年，整个行业恰恰走上了他警告的那条路。

结果就是开头说的——数据快吃完了，连Ilya都承认预训练要终结。

但第二条路，一直没人放弃。

强化学习杀回来了

2025年1月，DeepSeek发了R1。

推理能力很猛，但真正炸裂的不是结果，是训练过程里的一个发现。

他们做了个实验叫DeepSeek-R1-Zero——直接在基础模型上跑纯RL。

不做监督微调，不给人类示范，不教它"该怎么想"。

教它怎么推理了吗？没有。给了什么？一个奖励信号——对了加分，错了扣分。

结果呢？模型自己摸索出了思维链。没人教它一步一步推理，它自己学会了。

DeepSeek

更绝的是训练过程中出现了一个现象，论文里管它叫**"aha moment"**。

模型练到某个阶段，突然开始回头检查自己的推理，发现前面想错了，自己改了。

论文原话说：这不仅是模型的顿悟，也是我们研究者的顿悟。

我读论文的时候，这段反复看了好几遍。

一个模型在训练中自己学会了反思——这不就是"思考"的雏形吗？

没人教它推理，它自己悟出来了。

这和AlphaGo Zero的逻辑一模一样——只不过这次不是围棋，是语言和逻辑。

第二条路，跑通了。

经验时代

2025年4月，Sutton出手了。

和他一起的是David Silver——DeepMind首席科学家，AlphaGo和AlphaZero的创造者。

两个人联合发表了一篇论文：《Welcome to the Era of Experience》——欢迎来到经验时代。

他们把AI的发展分成了三个时代：

模拟时代（2015-2020）

AlphaGo、AlphaZero、星际争霸AI——在模拟环境里通过自我对弈学习。

很强，但局限在游戏和棋盘。

人类数据时代（2020-至今）

GPT、Claude、Gemini——用人类的文本训练，做出了ChatGPT这样改变世界的产品。

但天花板是人类知识的边界，而且数据快用完了。

经验时代（正在到来）

AI从自身经验中学习。跟环境交互、自己探索、自己试错，不再靠人类喂数据。

经验时代

不是画饼。他们直接甩了个证据：

AlphaProof。

2024年国际数学奥林匹克，AlphaProof拿了银牌标准。

6道题解了4道，28分（满分42）。

最难的第6题？609个参赛选手里只有5人满分。AlphaProof也解了。

数学奥赛

怎么做到的？

先自动把8000万条数学命题翻译成形式语言，然后用强化学习不断生成和验证证明。

碰到难题，就在推理时生成几百万条变体题目，边做边学。

没有人类数学家指导。 它自己在形式系统里摸索、试错、突破。

又是同一个故事：不看人类怎么做，自己做得更好。

拼一起看

围棋，跑通了。数学，跑通了。语言推理，也跑通了。

领域完全不同，规律一样。

合成数据能给第一条路续一段命。

但说到底，你不能靠照镜子来学新东西。

这事跟我有什么关系

如果经验路线真的成了主流，几件事会变。

AI的进步不再受限于人类产出多少数据。

它可以24小时自己跟自己练。

AlphaGo Zero 3天下了490万盘棋，人类职业棋手一辈子也下不了这么多。

AI的进化速度会和人类彻底脱钩。

AI能做到人类做不到的事。

学人类数据的AI，天花板就是人类已知的东西。

但AlphaProof证明了人类没证明过的数学定理。

AlphaFold预测了人类没搞清的蛋白质结构。

这不是"比人快"，是**"人根本没走过的路"**。

那瓶颈变成了什么？算力。

第一条路卡在数据上，第二条路卡在算力上。

你得有海量计算来支撑AI自己跟自己练。

英伟达股价为什么过去两年涨成那样？可能就是因为这个。

苦涩，但正确

回到Sutton 2019年写的那篇博文。

那时候LLM还没火，ChatGPT还要三年才出现。

但他说的逻辑很简单：

人类总想走捷径→把自己的知识塞进系统→短期有效→长期被更通用的方法碾压。

七十年如此，无一例外。

现在LLM遇到了数据墙，所有人开始找出路。

而出路，可能一直就在那里——只是大家在ChatGPT的兴奋中暂时忘了。

我个人的判断是：未来大概率不是二选一，而是两条路融合。

用人类数据打底，用经验路线突破天花板。但主角会换。

过去五年，数据是主角，算力是配角。接下来可能反过来。

两条路摆在面前。第一条路的尽头已经看见了。第二条路，刚刚开始。

最后说一句

我是 Evan，每天追全球 AI 动态，用说人话的方式写出来。

如果上面的内容对你有帮助，真诚地希望你能点个关注。

这对我真的很重要。

对了，我有个AI交流群。

进群能干嘛？

• 我每天整理一份AI日报，你不用自己到处翻

• 新东西出了我会第一时间丢群里，大家一起聊

• 没广告，就图个信息互通

想进？点公众号主页 ==> 菜单栏「加群」