你可能没听过翁家翌这个名字,但你用过的ChatGPT、GPT-4、GPT-4o,甚至刚发布的GPT-5,背后都有他的贡献。
OpenAI的每一次模型发布,release notes里几乎都能看到他的名字。
不是因为他设计了什么惊世骇俗的算法,而是因为他搭建了整个后训练阶段的强化学习基础设施。
用他自己的话说,他是在OpenAI"卖铲子"的人。
淘金热里最赚钱的,往往不是淘金的人,而是卖铲子的人。
这个95后福建小伙,从清华到CMU,再到OpenAI,走出了一条和大多数AI研究者截然不同的路。
他不追求发论文,觉得"发paper完全没有意义"。
他不相信纯学术路线,认为"如果你想进工业界,读PhD就是浪费生命"。
但他相信一件事:工程能力比想法更重要。
从一年级就开始的数学天赋
翁家翌小时候特别喜欢数学,从一年级就开始学奥数。
有意思的是,他说自己学东西其实比别人慢。
读一段代码,理解整个context,他需要花别人两三倍的时间。
但一旦理解了,用起来就非常快。
System 1思维:心理学家卡尼曼提出的概念,指那种不需要过脑子的直觉反应。比如看到2+2就知道是4,不用算。
他形容自己小学做口算题,就是用System 1直接"看"出答案。
别人还在计算,他已经写完了。
这种能力让他对数学产生了强烈的正反馈。
每做对一道题,就想做更难的。从小学到初中,再到高中,这个循环一直在加速。
但他很早就意识到一件事:自己需要比别人更早开始学东西。
初中的时候,他就开始自学高中数学。
不是因为学校要求,而是他觉得这是对自己未来的投资。
与其现在刷简单的题,不如提前学一些对未来有用的东西。
"我不是在学习,我是在投资。"初中生能有这种想法,挺罕见的。
信息差是最大的不公平
到了清华,翁家翌做了一件让他在校园里出名的事:把自己所有的作业和资料全部开源到GitHub上。
为什么?
因为他觉得信息差是一种不公平。
信息差:指不同人获取信息的能力和渠道不同,导致在同等努力下产出差异巨大。比如同样考清华,有人知道哪些资料最有用,有人完全靠自己摸索。
在清华,信息差是真实存在的。
有些人能通过学长学姐拿到历年考题和优质笔记,有些人只能自己埋头苦学。
翁家翌觉得这不对,每个人都应该平等地拥有这些信息。
于是他把自己整理的所有资料放到网上,谁都可以用。
这不是为了出名,是他真心相信的一件事:代码和工具是一种慈善。
后来他做的很多事,包括开源强化学习框架"天授"、做免费的签证查询系统tuixue.online,都是同样的逻辑。
"发论文完全没有意义"
大二的时候,翁家翌进了朱军老师的实验室,开始接触强化学习。
强化学习(Reinforcement Learning):一种让AI通过试错来学习的方法。就像训练小狗,做对了给奖励,做错了不给。AI通过不断尝试,慢慢学会做出正确的选择。
他选强化学习几乎是随机的,甚至一开始还把它和GAN搞混了。
但做着做着,他发现了一个让他抓狂的问题:当时的强化学习库太难用了。
代码又臃肿又乱,想跑个实验得先花大量时间搞清楚框架怎么用。
这让他很不爽。
于是他花了两周时间,自己写了一个强化学习库,叫"天授"。
设计理念只有一个:简洁、优雅、好用。
天授很快在GitHub上火了,拿到了好几千个star。
但翁家翌对这个结果的反应很有意思,他说:
"我不想发paper。我觉得发paper完全没有意义。"
他在乎的是影响力,是有多少人用他写的代码。
发一篇论文能有几个人看?但写一个好用的库,可能有成千上万的人每天在用。
这个观点在学术界是异端,但在他后来的职业选择中一直贯穿始终。
读PhD是浪费生命?
本科毕业后,翁家翌没有选择读博士。
他的观点相当激进:如果你想进工业界,读PhD就是浪费生命。
因为技术范式变化太快了。
等你博士毕业,你研究的那个方向可能已经过时了。
而且工业界看重的是你能不能干活,不是你有没有博士学位。
他引用了一个同事的话:
"教一个researcher如何做好engineering,要远比教一个engineer如何做好research更难。"
这句话后来成了他的信条。
在大模型时代,想法是便宜的,真正稀缺的是把想法变成现实的工程能力。
加入OpenAI:为什么不选Google?
2022年,翁家翌面临选择:Google、字节跳动、DeepSeek、OpenAI。
他选了OpenAI。
不是因为钱最多,而是因为他想学习。
当时的OpenAI是全球强化学习做得最好的地方。
翁家翌想知道,这些人到底是怎么训出这么厉害的模型的?
John Schulman面试他的时候,对他的GitHub star数量印象深刻。
那代表着真实的影响力,有这么多人在用他写的代码。
John Schulman:OpenAI的联合创始人之一,PPO算法的发明者。PPO是目前大模型RLHF训练中最常用的算法。
面试有一道end-to-end的coding题,翁家翌两个小时就做完了。
Schulman当场就决定要他。
"卖铲子"的哲学
在OpenAI,翁家翌的工作是搭建后训练阶段的强化学习基础设施。
听起来很抽象,实际上可以这样理解:
大模型的训练分两个阶段。
第一阶段叫预训练,就是让模型读海量的文本,学会语言的基本规律。
第二阶段叫后训练,让模型学会按照人类的偏好来回答问题。
RLHF(人类反馈强化学习):后训练的核心技术。简单说就是让人类给AI的回答打分,AI根据这些反馈来调整自己的行为。这就是为什么ChatGPT会尽量给出有帮助的、礼貌的回答。
翁家翌负责的就是让RLHF能够在大规模集群上稳定运行。
他把自己的工作比喻成"卖铲子"。
淘金热的时候,真正赚钱的不是淘金的人,而是卖铲子、卖牛仔裤的人。
在AI研究中,真正推动进步的不是那些提出新想法的人,而是能把想法变成可运行代码的人。
"每家的infra都有不同程度的bug,谁修的bug越多,谁的模型训得就越好。"
这句话听起来很土,但确实是他在OpenAI的真实体会。
研究员可能比工程师先被AI替代
翁家翌有一个有趣的预测:AI时代,研究员可能比基础设施工程师先被替代。
为什么?因为提出想法相对容易,AI已经可以做得不错了。
但维护复杂的基础设施代码,修复那些隐藏很深的bug,这些事情目前AI还做不好。
他甚至觉得,销售可能是最不容易被替代的职业之一。
因为销售需要人与人之间的连接和说服力,这是AI很难完全复制的。
对年轻人的建议
翁家翌给想进入AI行业的年轻人几个建议:
第一,尽早进入工业界。
如果你的目标是在AI公司工作,那就不要在学校耗太久。
硕士学位加上相关实习经验,比博士学位更有用。
第二,工程能力比研究能力更重要。
现在是大模型时代,想法到处都是,GPT自己就能生成无数个。
真正稀缺的是能把想法落地的工程能力。
第三,建立自己的评价体系。
不要被GPA套住。
找到能让你脱颖而出的差异化优势,比如开源项目、竞赛成绩、GitHub star数量。这些比GPA更能证明你的能力。
第四,投资你的未来。
学习不是为了应付考试,而是为了构建你的知识体系。
提前学一些对未来有用的东西,哪怕短期内看不到回报。
工程师的自我修养
翁家翌的故事让我想到一个问题:我们对"成功"的定义是不是太狭隘了?
在学术界,成功意味着发论文、拿学位、成为教授。
但翁家翌走了一条完全不同的路。他不发论文,不读博士,但他的代码被几乎所有OpenAI的模型使用。
他的影响力不是通过论文引用来衡量的,而是通过有多少人在用他写的工具。
这可能是一种更务实的影响力。
在AI这个快速变化的领域,算法和理论可能很快就会过时,但好的工程实践会沉淀下来。
那些让系统更稳定、更高效的工作,虽然不显眼,但确实在推动整个行业向前。
翁家翌说,他评价自己人生成功与否的标准是:死后还有多少人记得他的名字。
通过他开源的代码、他搭建的基础设施、他帮助过的人,这个数字可能会比发一百篇论文更大。
这是一个工程师对世界的理解方式。不追求虚名,只追求实打实的影响力。
也许,这才是这个时代最稀缺的东西。