有时候我会想,大模型时代最荒诞的一件事是什么。
不是模型越来越强,也不是论文越来越多。而是我们明明站在一个技术爆炸的年代,却越来越容易被一种幻觉迷住:只要我想到一个好点子,我就能改变世界。
直到我看完 WhynotTV 这期对翁家翌的访谈,才突然意识到,很多人输就输在这个幻觉上。
点子当然重要,但点子越来越便宜了。真正昂贵的东西,恰恰是大多数人不愿意聊、也不愿意做的那一层:基础设施。
你以为 OpenAI 的胜利来自某个神秘算法。可翁家翌的讲述让人很难不清醒:OpenAI 能持续赢,是因为他们把研究做成了系统,把灵感做成了流水线,把不可控做成了可复现。
而这件事,恰好是一个工程脑最擅长的事。
一、清华开源作业这件小事,其实很不简单
他在清华时期做过的一件事:开源作业。
听起来是不是很轻?甚至有点像学生时代的热血行为。
但你仔细想想,这事挺反常识的。大部分人的默认逻辑是,信息差就是优势,掌握了信息差就能领先。尤其在学校这种环境里,作业、资料、经验,都是隐形的护城河。可翁家翌选择把护城河填平。
他当时的想法很简单:很多人不是不努力,是根本不知道怎么做。你把路径讲清楚,把资源放出来,别人就能少走弯路。这段话我听完其实挺震动的。
因为你会发现,真正厉害的人很早就不再纠结自己有没有赢过身边的人。他更在意的是,我能不能把这个系统的效率提高一点点。
这种人后来去 OpenAI 做什么,你都不会意外。
因为他骨子里就不太像一个单纯追求个人胜负的人。他更像一个搭桥修路的人。
二、真正的差距不在想法,在验证想法的速度
很多人对OpenAI的想象,是那种天才灵光一现,模型突然突破,世界被改变。但翁家翌讲的完全不是这个故事。
他讲的是另一个更现实、更工业化的版本:点子很容易,验证点子才难。验证慢,就会被甩下车。验证快,就能一直在车上。
他大意是:idea 很便宜,真正贵的是 infra 的正确性。
听起来像一句很冷的工程话,但其实是大模型时代最残酷的真相。很多团队失败,不是因为不聪明,而是因为他们把科研当成了灵感竞赛,却没把它当成生产系统。OpenAI不一样。他们把研究当成一条流水线。流水线的意义不是制造天才,而是让任何一个好点子都能被快速验证、快速迭代、快速放大。
三、别人学框架,他直接把框架重做了一遍
他还讲了天授 Tianshou 的前世今生。
很多人做开源,都是那种我顺手整理一下,发出去,涨涨星,装点履历。翁家翌不是。他是那种典型的工程脑:嫌麻烦、嫌慢、嫌不好改,然后直接推倒重来。
他说当时主流 RL 框架太重了,改起来特别痛苦。于是他干了一件很离谱的事:自己写一个。两周时间,第一版就出来了。你知道这事最恐怖的点在哪里吗。不是他两周能写出一个框架。而是他的思维方式:如果工具不好用,那就造工具;如果系统不顺手,那就重做系统。
这不是写代码,这是改规则。大多数人一辈子都在适应规则。少数人会去改规则。更少的人会改完之后把新规则免费发出来,让更多人受益。所以你会发现,他后来进入 OpenAI 去做 Infra,其实非常顺。因为他的能力从来不是写论文,而是把复杂系统变得可用、可改、可迭代。
四、他做工具的方式很简单:先把别人的时间救回来
我一开始以为这只是一个小插曲,属于那种播客里随口提一下的项目经历。但听到后面你会发现,这个项目的价值根本不在技术,而在它像一张X光片,把翁家翌的做事风格照得很清楚。
疫情那几年,签证信息混乱到什么程度,很多人都经历过。网页每天变,政策随时改,群里传来传去的截图真假难辨。你想查一个最简单的问题,可能要刷半小时网页、问三个人、翻五个群。这种混乱最折磨人的地方不是难,而是浪费时间。而翁家翌的工程脑在这种时候就会自动启动。他不是去抱怨,也不是去写长文科普,而是用一种最朴素的方式解决问题:把信息抓下来,整理好,做成一个所有人都能查的入口。
这就是 tuixue online。
你可以把它当成一个工具网站,也可以把它当成一个小产品,但我更愿意把它理解成一种价值观:当你看见世界在浪费时间,你能不能用工程的方式,把浪费变成秩序。
很多人做项目是为了证明自己,做完就写在简历上。
他做项目更像是在修路。路修好了,谁都可以走,甚至不需要知道修路的人是谁。这也是为什么这种工具往往会自己传播。你不用营销,它自然会被转发,因为它解决的不是炫酷的问题,而是很多人每天都在痛的问题。
五、后训练不是锦上添花,它决定模型能不能变成产品
很多人谈大模型,谈到最后都会落在同一个方向:更大参数、更大数据、更强算力。预训练当然重要,它决定了模型的上限,决定了模型有没有足够的知识和能力。
但真正让模型从实验室走向大众的,是后训练。
翁家翌用非常清晰的方式讲了强化学习与 post-training 的关系。预训练更像把一个人读到博士毕业,知识储备足够丰富;而后训练更像把这个人送进真实社会,让他学会怎么回答问题、怎么遵循指令、怎么更符合人类偏好。
这也是为什么很多人第一次用到对齐做得好的模型,会有一种很强烈的落差感:它不是更聪明,而是更像一个能合作的对象。它知道什么时候该简短,什么时候该谨慎,什么时候该承认不知道。它不再只是能说话,而是能沟通。但后训练真正难的地方,也从这一刻开始出现。
模型在变得更像人之前,必须先变得更可控。可控性不是一个算法名词,而是一整套工程能力:数据怎么来,反馈怎么收,奖励怎么定义,训练怎么稳定,失败怎么回滚,结果怎么评估。没有这些系统支撑,后训练很容易变成玄学,变成一次次不可复现的炼丹。
所以当讨论后训练时,真正的分水岭不是谁懂算法,而是谁能把这套流程做成稳定的生产线。
六、OpenAI的强,不在天才多,而在系统能造血
翁家翌还谈到了组织、开放性与人才流动。
外界谈 OpenAI,总喜欢把它写成天才集中营,仿佛只要凑齐一群最聪明的人,奇迹就会自动发生。但在他的描述里,OpenAI 更像一台高速运转的机器:人才密度高只是前提,真正决定效率的是信息流动速度,是反馈回路的短,是机制能否把个人能力放大成团队能力。
一个组织真正强的时候,最重要的不是某个人能做什么,而是系统能不能持续产出正确的方向,能不能持续把错误暴露出来,能不能持续把经验沉淀成可复用的流程。
所以当人才流失发生时,成熟组织的第一反应不是恐慌,而是让系统继续运转。人会来会走,但机制必须留下。机制留下了,团队才能继续造血,才能在任何不确定里保持确定性。
这一段最值得被记住的不是八卦,而是一条对所有行业都适用的结论:越是顶尖的组织,越不依赖英雄叙事。它依赖系统。
七、从清华开源作业到OpenAI,他一直在做同一件事:修路
把这期访谈从头到尾串起来,会发现翁家翌的路径并不神秘。
清华时期的开源作业,是把信息差拆掉。做天授,是把学习成本降下来。做 tuixue,是把混乱变成秩序。去 OpenAI 做 infra,是把研究变成可复现、可规模化的系统。
这些事看起来跨度很大,但内核一致:把世界里原本低效、封闭、靠经验才能完成的部分,变成任何人都能使用的基础设施。
很多人追求影响力,会选择站在舞台中央。而他选择站在舞台背后,修路、供电、搭系统。
这种选择不够耀眼,却足够强大。因为大模型时代的胜负,越来越不像一场灵感竞赛,而像一场工程竞赛。不是谁更聪明,而是谁能更快拿到反馈、更快迭代、更快把成果交付成可用的产品。
真正改写游戏规则的人,往往不是提出新名词的人,而是让所有人都能跑得更快的人。