人类数据快喂完了,然后呢?

10 阅读7分钟

8年前,AI就证明了不需要人类也能碾压人类。但整个行业假装没看见。

2017年,AlphaGo Zero。

不看一盘人类棋谱,自己跟自己下棋,3天后100比0

封面

但没人当回事。围棋嘛,跟现实世界有什么关系。

接下来8年,所有人走了一条完全相反的路——往模型里猛灌人类数据。

GPT、Claude、Gemini,全是这么练出来的。效果也确实好。

直到数据开始见底。

第一条路,快走到头了

Epoch AI的预测:高质量文本大约300万亿token,最快2026年耗尽。

Llama 3一个模型就吃了15万亿。一个互联网,几十家公司在抢。

连Ilya都在NeurIPS上说了:

预训练将毫无疑问地终结。因为我们只有一个互联网。

数据墙

这话从Ilya嘴里说出来,分量不一样。

OpenAI联合创始人,前首席科学家,大模型路线的缔造者之一。

连他都承认天花板了。

那另一条路呢?8年前AlphaGo Zero走的那条——不学人类,自己悟。

当时觉得那事挺震撼,但好像跟"做产品"没关系。

围棋是围棋,现实世界是现实世界。

但最近两年发生了一些事,让我改了想法。

早就有人说过了

2019年3月,强化学习之父、图灵奖得主Richard Sutton写了一篇博文。

《The Bitter Lesson》——苦涩的教训。

只有几百字,但在AI圈引发了一场长达数年的辩论。

苦涩教训

核心就一句话:

70年的AI研究史反复证明了一件事——利用算力做通用搜索和学习的方法,最终总是会赢。而那些试图把人类知识硬编码进系统的方法,短期有效,长期必输。

他举了很多例子。

国际象棋,最早大家拼命往里塞特级大师的棋路知识。

最后Deep Blue赢卡斯帕罗夫,靠的不是更高级的棋路知识,而是暴力搜索

语音识别,几十年里大家在研究人类发音的物理模型、语言学规则。

最后统计学习方法用大量数据一遍遍训练,把这些方法全干掉了。

计算机视觉也一样,手工设计的特征提取器被深度学习碾压。

研究者的直觉永远是:让我把聪明才智嵌入系统。

但最后赢的永远是那个最笨的方法——别嵌入什么聪明才智了,给够算力,让系统自己学。

Sutton管这叫**"苦涩的教训"**。

苦涩在哪?人类不甘心,总想走捷径,但走捷径就是会输

说实话,我第一次读这篇博文的时候觉得太极端了。

但这两年回头看,越看越觉得他是对的。

Sutton写这篇文章的时候,GPT-2刚发布。

讽刺的是,接下来8年,整个行业恰恰走上了他警告的那条路。

结果就是开头说的——数据快吃完了,连Ilya都承认预训练要终结。

但第二条路,一直没人放弃。

强化学习杀回来了

2025年1月,DeepSeek发了R1。

推理能力很猛,但真正炸裂的不是结果,是训练过程里的一个发现

他们做了个实验叫DeepSeek-R1-Zero——直接在基础模型上跑纯RL。

不做监督微调,不给人类示范,不教它"该怎么想"。

教它怎么推理了吗?没有。给了什么?一个奖励信号——对了加分,错了扣分。

结果呢?模型自己摸索出了思维链。没人教它一步一步推理,它自己学会了。

DeepSeek

更绝的是训练过程中出现了一个现象,论文里管它叫**"aha moment"**。

模型练到某个阶段,突然开始回头检查自己的推理,发现前面想错了,自己改了。

论文原话说:这不仅是模型的顿悟,也是我们研究者的顿悟。

我读论文的时候,这段反复看了好几遍。

一个模型在训练中自己学会了反思——这不就是"思考"的雏形吗?

没人教它推理,它自己悟出来了。

这和AlphaGo Zero的逻辑一模一样——只不过这次不是围棋,是语言和逻辑。

第二条路,跑通了。

经验时代

2025年4月,Sutton出手了。

和他一起的是David Silver——DeepMind首席科学家,AlphaGo和AlphaZero的创造者。

两个人联合发表了一篇论文:《Welcome to the Era of Experience》——欢迎来到经验时代。

他们把AI的发展分成了三个时代:

模拟时代(2015-2020)

AlphaGo、AlphaZero、星际争霸AI——在模拟环境里通过自我对弈学习。

很强,但局限在游戏和棋盘。

人类数据时代(2020-至今)

GPT、Claude、Gemini——用人类的文本训练,做出了ChatGPT这样改变世界的产品。

但天花板是人类知识的边界,而且数据快用完了。

经验时代(正在到来)

AI从自身经验中学习。跟环境交互、自己探索、自己试错,不再靠人类喂数据。

经验时代

不是画饼。他们直接甩了个证据:

AlphaProof。

2024年国际数学奥林匹克,AlphaProof拿了银牌标准。

6道题解了4道,28分(满分42)。

最难的第6题?609个参赛选手里只有5人满分。AlphaProof也解了。

数学奥赛

怎么做到的?

先自动把8000万条数学命题翻译成形式语言,然后用强化学习不断生成和验证证明。

碰到难题,就在推理时生成几百万条变体题目,边做边学。

没有人类数学家指导。 它自己在形式系统里摸索、试错、突破。

又是同一个故事:不看人类怎么做,自己做得更好。

拼一起看

围棋,跑通了。数学,跑通了。语言推理,也跑通了。

领域完全不同,规律一样。

合成数据能给第一条路续一段命。

但说到底,你不能靠照镜子来学新东西。

这事跟我有什么关系

如果经验路线真的成了主流,几件事会变。

影响

AI的进步不再受限于人类产出多少数据。

它可以24小时自己跟自己练。

AlphaGo Zero 3天下了490万盘棋,人类职业棋手一辈子也下不了这么多。

AI的进化速度会和人类彻底脱钩

AI能做到人类做不到的事。

学人类数据的AI,天花板就是人类已知的东西。

但AlphaProof证明了人类没证明过的数学定理。

AlphaFold预测了人类没搞清的蛋白质结构。

这不是"比人快",是**"人根本没走过的路"**。

那瓶颈变成了什么?算力。

第一条路卡在数据上,第二条路卡在算力上。

你得有海量计算来支撑AI自己跟自己练。

英伟达股价为什么过去两年涨成那样?可能就是因为这个。

苦涩,但正确

回到Sutton 2019年写的那篇博文。

那时候LLM还没火,ChatGPT还要三年才出现。

但他说的逻辑很简单:

人类总想走捷径→把自己的知识塞进系统→短期有效→长期被更通用的方法碾压。

七十年如此,无一例外。

结尾

现在LLM遇到了数据墙,所有人开始找出路。

而出路,可能一直就在那里——只是大家在ChatGPT的兴奋中暂时忘了。

我个人的判断是:未来大概率不是二选一,而是两条路融合。

用人类数据打底,用经验路线突破天花板。但主角会换。

过去五年,数据是主角,算力是配角。接下来可能反过来。

两条路摆在面前。 第一条路的尽头已经看见了。第二条路,刚刚开始。

最后说一句

我是 Evan,每天追全球 AI 动态,用说人话的方式写出来。

如果上面的内容对你有帮助,真诚地希望你能点个关注

这对我真的很重要。


对了,我有个AI交流群

进群能干嘛?

• 我每天整理一份AI日报,你不用自己到处翻

• 新东西出了我会第一时间丢群里,大家一起聊

• 没广告,就图个信息互通

想进?点公众号主页 ==> 菜单栏「加群