翁家翌:在OpenAI"卖铲子"的人

0 阅读9分钟

你可能没听过翁家翌这个名字,但你用过的ChatGPT、GPT-4、GPT-4o,甚至刚发布的GPT-5,背后都有他的贡献。

OpenAI的每一次模型发布,release notes里几乎都能看到他的名字。

不是因为他设计了什么惊世骇俗的算法,而是因为他搭建了整个后训练阶段的强化学习基础设施。

用他自己的话说,他是在OpenAI"卖铲子"的人。

淘金热里最赚钱的,往往不是淘金的人,而是卖铲子的人。

这个95后福建小伙,从清华到CMU,再到OpenAI,走出了一条和大多数AI研究者截然不同的路。

他不追求发论文,觉得"发paper完全没有意义"。

他不相信纯学术路线,认为"如果你想进工业界,读PhD就是浪费生命"。

但他相信一件事:工程能力比想法更重要。

从一年级就开始的数学天赋

image.png

翁家翌小时候特别喜欢数学,从一年级就开始学奥数。

有意思的是,他说自己学东西其实比别人慢。

读一段代码,理解整个context,他需要花别人两三倍的时间。

但一旦理解了,用起来就非常快。

System 1思维:心理学家卡尼曼提出的概念,指那种不需要过脑子的直觉反应。比如看到2+2就知道是4,不用算。

他形容自己小学做口算题,就是用System 1直接"看"出答案。

别人还在计算,他已经写完了。

这种能力让他对数学产生了强烈的正反馈。

每做对一道题,就想做更难的。从小学到初中,再到高中,这个循环一直在加速。

但他很早就意识到一件事:自己需要比别人更早开始学东西。

初中的时候,他就开始自学高中数学。

不是因为学校要求,而是他觉得这是对自己未来的投资。

与其现在刷简单的题,不如提前学一些对未来有用的东西。

"我不是在学习,我是在投资。"初中生能有这种想法,挺罕见的。

信息差是最大的不公平

image.png

到了清华,翁家翌做了一件让他在校园里出名的事:把自己所有的作业和资料全部开源到GitHub上。

为什么?

因为他觉得信息差是一种不公平。

信息差:指不同人获取信息的能力和渠道不同,导致在同等努力下产出差异巨大。比如同样考清华,有人知道哪些资料最有用,有人完全靠自己摸索。

在清华,信息差是真实存在的。

有些人能通过学长学姐拿到历年考题和优质笔记,有些人只能自己埋头苦学。

翁家翌觉得这不对,每个人都应该平等地拥有这些信息。

于是他把自己整理的所有资料放到网上,谁都可以用。

这不是为了出名,是他真心相信的一件事:代码和工具是一种慈善。

后来他做的很多事,包括开源强化学习框架"天授"、做免费的签证查询系统tuixue.online,都是同样的逻辑。

"发论文完全没有意义"

image.png

大二的时候,翁家翌进了朱军老师的实验室,开始接触强化学习。

强化学习(Reinforcement Learning):一种让AI通过试错来学习的方法。就像训练小狗,做对了给奖励,做错了不给。AI通过不断尝试,慢慢学会做出正确的选择。

他选强化学习几乎是随机的,甚至一开始还把它和GAN搞混了。

但做着做着,他发现了一个让他抓狂的问题:当时的强化学习库太难用了。

代码又臃肿又乱,想跑个实验得先花大量时间搞清楚框架怎么用。

这让他很不爽。

于是他花了两周时间,自己写了一个强化学习库,叫"天授"。

设计理念只有一个:简洁、优雅、好用。

天授很快在GitHub上火了,拿到了好几千个star。

但翁家翌对这个结果的反应很有意思,他说:

"我不想发paper。我觉得发paper完全没有意义。"

他在乎的是影响力,是有多少人用他写的代码。

发一篇论文能有几个人看?但写一个好用的库,可能有成千上万的人每天在用。

这个观点在学术界是异端,但在他后来的职业选择中一直贯穿始终。

读PhD是浪费生命?

image.png

本科毕业后,翁家翌没有选择读博士。

他的观点相当激进:如果你想进工业界,读PhD就是浪费生命。

因为技术范式变化太快了。

等你博士毕业,你研究的那个方向可能已经过时了。

而且工业界看重的是你能不能干活,不是你有没有博士学位。

他引用了一个同事的话:

"教一个researcher如何做好engineering,要远比教一个engineer如何做好research更难。"

这句话后来成了他的信条。

在大模型时代,想法是便宜的,真正稀缺的是把想法变成现实的工程能力。

加入OpenAI:为什么不选Google?

image.png

2022年,翁家翌面临选择:Google、字节跳动、DeepSeek、OpenAI。

他选了OpenAI。

不是因为钱最多,而是因为他想学习。

当时的OpenAI是全球强化学习做得最好的地方。

翁家翌想知道,这些人到底是怎么训出这么厉害的模型的?

John Schulman面试他的时候,对他的GitHub star数量印象深刻。

那代表着真实的影响力,有这么多人在用他写的代码。

John Schulman:OpenAI的联合创始人之一,PPO算法的发明者。PPO是目前大模型RLHF训练中最常用的算法。

面试有一道end-to-end的coding题,翁家翌两个小时就做完了。

Schulman当场就决定要他。

"卖铲子"的哲学

image.png

在OpenAI,翁家翌的工作是搭建后训练阶段的强化学习基础设施。

听起来很抽象,实际上可以这样理解:

大模型的训练分两个阶段。

第一阶段叫预训练,就是让模型读海量的文本,学会语言的基本规律。

第二阶段叫后训练,让模型学会按照人类的偏好来回答问题。

RLHF(人类反馈强化学习):后训练的核心技术。简单说就是让人类给AI的回答打分,AI根据这些反馈来调整自己的行为。这就是为什么ChatGPT会尽量给出有帮助的、礼貌的回答。

翁家翌负责的就是让RLHF能够在大规模集群上稳定运行。

他把自己的工作比喻成"卖铲子"。

淘金热的时候,真正赚钱的不是淘金的人,而是卖铲子、卖牛仔裤的人。

在AI研究中,真正推动进步的不是那些提出新想法的人,而是能把想法变成可运行代码的人。

"每家的infra都有不同程度的bug,谁修的bug越多,谁的模型训得就越好。"

这句话听起来很土,但确实是他在OpenAI的真实体会。

研究员可能比工程师先被AI替代

image.png

翁家翌有一个有趣的预测:AI时代,研究员可能比基础设施工程师先被替代。

为什么?因为提出想法相对容易,AI已经可以做得不错了。

但维护复杂的基础设施代码,修复那些隐藏很深的bug,这些事情目前AI还做不好。

他甚至觉得,销售可能是最不容易被替代的职业之一。

因为销售需要人与人之间的连接和说服力,这是AI很难完全复制的。

对年轻人的建议

image.png

翁家翌给想进入AI行业的年轻人几个建议:

第一,尽早进入工业界。

如果你的目标是在AI公司工作,那就不要在学校耗太久。

硕士学位加上相关实习经验,比博士学位更有用。

第二,工程能力比研究能力更重要。

现在是大模型时代,想法到处都是,GPT自己就能生成无数个。

真正稀缺的是能把想法落地的工程能力。

第三,建立自己的评价体系。

不要被GPA套住。

找到能让你脱颖而出的差异化优势,比如开源项目、竞赛成绩、GitHub star数量。这些比GPA更能证明你的能力。

第四,投资你的未来。

学习不是为了应付考试,而是为了构建你的知识体系。

提前学一些对未来有用的东西,哪怕短期内看不到回报。

工程师的自我修养

image.png

翁家翌的故事让我想到一个问题:我们对"成功"的定义是不是太狭隘了?

在学术界,成功意味着发论文、拿学位、成为教授。

但翁家翌走了一条完全不同的路。他不发论文,不读博士,但他的代码被几乎所有OpenAI的模型使用。

他的影响力不是通过论文引用来衡量的,而是通过有多少人在用他写的工具。

这可能是一种更务实的影响力。

在AI这个快速变化的领域,算法和理论可能很快就会过时,但好的工程实践会沉淀下来。

那些让系统更稳定、更高效的工作,虽然不显眼,但确实在推动整个行业向前。

翁家翌说,他评价自己人生成功与否的标准是:死后还有多少人记得他的名字。

通过他开源的代码、他搭建的基础设施、他帮助过的人,这个数字可能会比发一百篇论文更大。

这是一个工程师对世界的理解方式。不追求虚名,只追求实打实的影响力。

也许,这才是这个时代最稀缺的东西。