8年前,AI就证明了不需要人类也能碾压人类。但整个行业假装没看见。
2017年,AlphaGo Zero。
不看一盘人类棋谱,自己跟自己下棋,3天后100比0。
但没人当回事。围棋嘛,跟现实世界有什么关系。
接下来8年,所有人走了一条完全相反的路——往模型里猛灌人类数据。
GPT、Claude、Gemini,全是这么练出来的。效果也确实好。
直到数据开始见底。
第一条路,快走到头了
Epoch AI的预测:高质量文本大约300万亿token,最快2026年耗尽。
Llama 3一个模型就吃了15万亿。一个互联网,几十家公司在抢。
连Ilya都在NeurIPS上说了:
预训练将毫无疑问地终结。因为我们只有一个互联网。
这话从Ilya嘴里说出来,分量不一样。
OpenAI联合创始人,前首席科学家,大模型路线的缔造者之一。
连他都承认天花板了。
那另一条路呢?8年前AlphaGo Zero走的那条——不学人类,自己悟。
当时觉得那事挺震撼,但好像跟"做产品"没关系。
围棋是围棋,现实世界是现实世界。
但最近两年发生了一些事,让我改了想法。
早就有人说过了
2019年3月,强化学习之父、图灵奖得主Richard Sutton写了一篇博文。
《The Bitter Lesson》——苦涩的教训。
只有几百字,但在AI圈引发了一场长达数年的辩论。
核心就一句话:
70年的AI研究史反复证明了一件事——利用算力做通用搜索和学习的方法,最终总是会赢。而那些试图把人类知识硬编码进系统的方法,短期有效,长期必输。
他举了很多例子。
国际象棋,最早大家拼命往里塞特级大师的棋路知识。
最后Deep Blue赢卡斯帕罗夫,靠的不是更高级的棋路知识,而是暴力搜索。
语音识别,几十年里大家在研究人类发音的物理模型、语言学规则。
最后统计学习方法用大量数据一遍遍训练,把这些方法全干掉了。
计算机视觉也一样,手工设计的特征提取器被深度学习碾压。
研究者的直觉永远是:让我把聪明才智嵌入系统。
但最后赢的永远是那个最笨的方法——别嵌入什么聪明才智了,给够算力,让系统自己学。
Sutton管这叫**"苦涩的教训"**。
苦涩在哪?人类不甘心,总想走捷径,但走捷径就是会输。
说实话,我第一次读这篇博文的时候觉得太极端了。
但这两年回头看,越看越觉得他是对的。
Sutton写这篇文章的时候,GPT-2刚发布。
讽刺的是,接下来8年,整个行业恰恰走上了他警告的那条路。
结果就是开头说的——数据快吃完了,连Ilya都承认预训练要终结。
但第二条路,一直没人放弃。
强化学习杀回来了
2025年1月,DeepSeek发了R1。
推理能力很猛,但真正炸裂的不是结果,是训练过程里的一个发现。
他们做了个实验叫DeepSeek-R1-Zero——直接在基础模型上跑纯RL。
不做监督微调,不给人类示范,不教它"该怎么想"。
教它怎么推理了吗?没有。给了什么?一个奖励信号——对了加分,错了扣分。
结果呢?模型自己摸索出了思维链。没人教它一步一步推理,它自己学会了。
更绝的是训练过程中出现了一个现象,论文里管它叫**"aha moment"**。
模型练到某个阶段,突然开始回头检查自己的推理,发现前面想错了,自己改了。
论文原话说:这不仅是模型的顿悟,也是我们研究者的顿悟。
我读论文的时候,这段反复看了好几遍。
一个模型在训练中自己学会了反思——这不就是"思考"的雏形吗?
没人教它推理,它自己悟出来了。
这和AlphaGo Zero的逻辑一模一样——只不过这次不是围棋,是语言和逻辑。
第二条路,跑通了。
经验时代
2025年4月,Sutton出手了。
和他一起的是David Silver——DeepMind首席科学家,AlphaGo和AlphaZero的创造者。
两个人联合发表了一篇论文:《Welcome to the Era of Experience》——欢迎来到经验时代。
他们把AI的发展分成了三个时代:
模拟时代(2015-2020)
AlphaGo、AlphaZero、星际争霸AI——在模拟环境里通过自我对弈学习。
很强,但局限在游戏和棋盘。
人类数据时代(2020-至今)
GPT、Claude、Gemini——用人类的文本训练,做出了ChatGPT这样改变世界的产品。
但天花板是人类知识的边界,而且数据快用完了。
经验时代(正在到来)
AI从自身经验中学习。跟环境交互、自己探索、自己试错,不再靠人类喂数据。
不是画饼。他们直接甩了个证据:
AlphaProof。
2024年国际数学奥林匹克,AlphaProof拿了银牌标准。
6道题解了4道,28分(满分42)。
最难的第6题?609个参赛选手里只有5人满分。AlphaProof也解了。
怎么做到的?
先自动把8000万条数学命题翻译成形式语言,然后用强化学习不断生成和验证证明。
碰到难题,就在推理时生成几百万条变体题目,边做边学。
没有人类数学家指导。 它自己在形式系统里摸索、试错、突破。
又是同一个故事:不看人类怎么做,自己做得更好。
拼一起看
围棋,跑通了。数学,跑通了。语言推理,也跑通了。
领域完全不同,规律一样。
合成数据能给第一条路续一段命。
但说到底,你不能靠照镜子来学新东西。
这事跟我有什么关系
如果经验路线真的成了主流,几件事会变。
AI的进步不再受限于人类产出多少数据。
它可以24小时自己跟自己练。
AlphaGo Zero 3天下了490万盘棋,人类职业棋手一辈子也下不了这么多。
AI的进化速度会和人类彻底脱钩。
AI能做到人类做不到的事。
学人类数据的AI,天花板就是人类已知的东西。
但AlphaProof证明了人类没证明过的数学定理。
AlphaFold预测了人类没搞清的蛋白质结构。
这不是"比人快",是**"人根本没走过的路"**。
那瓶颈变成了什么?算力。
第一条路卡在数据上,第二条路卡在算力上。
你得有海量计算来支撑AI自己跟自己练。
英伟达股价为什么过去两年涨成那样?可能就是因为这个。
苦涩,但正确
回到Sutton 2019年写的那篇博文。
那时候LLM还没火,ChatGPT还要三年才出现。
但他说的逻辑很简单:
人类总想走捷径→把自己的知识塞进系统→短期有效→长期被更通用的方法碾压。
七十年如此,无一例外。
现在LLM遇到了数据墙,所有人开始找出路。
而出路,可能一直就在那里——只是大家在ChatGPT的兴奋中暂时忘了。
我个人的判断是:未来大概率不是二选一,而是两条路融合。
用人类数据打底,用经验路线突破天花板。但主角会换。
过去五年,数据是主角,算力是配角。接下来可能反过来。
两条路摆在面前。 第一条路的尽头已经看见了。第二条路,刚刚开始。
最后说一句
我是 Evan,每天追全球 AI 动态,用说人话的方式写出来。
如果上面的内容对你有帮助,真诚地希望你能点个关注。
这对我真的很重要。
对了,我有个AI交流群。
进群能干嘛?
• 我每天整理一份AI日报,你不用自己到处翻
• 新东西出了我会第一时间丢群里,大家一起聊
• 没广告,就图个信息互通
想进?点公众号主页 ==> 菜单栏「加群」