翁家翌：在OpenAI"卖铲子"的人你可能没听过翁家翌这个名字，但你用过的ChatGPT、GPT-4、GPT-4o，甚至

你可能没听过翁家翌这个名字，但你用过的ChatGPT、GPT-4、GPT-4o，甚至刚发布的GPT-5，背后都有他的贡献。

OpenAI的每一次模型发布，release notes里几乎都能看到他的名字。

不是因为他设计了什么惊世骇俗的算法，而是因为他搭建了整个后训练阶段的强化学习基础设施。

用他自己的话说，他是在OpenAI"卖铲子"的人。

淘金热里最赚钱的，往往不是淘金的人，而是卖铲子的人。

这个95后福建小伙，从清华到CMU，再到OpenAI，走出了一条和大多数AI研究者截然不同的路。

他不追求发论文，觉得"发paper完全没有意义"。

他不相信纯学术路线，认为"如果你想进工业界，读PhD就是浪费生命"。

但他相信一件事：工程能力比想法更重要。

从一年级就开始的数学天赋

翁家翌小时候特别喜欢数学，从一年级就开始学奥数。

有意思的是，他说自己学东西其实比别人慢。

读一段代码，理解整个context，他需要花别人两三倍的时间。

但一旦理解了，用起来就非常快。

System 1思维：心理学家卡尼曼提出的概念，指那种不需要过脑子的直觉反应。比如看到2+2就知道是4，不用算。

他形容自己小学做口算题，就是用System 1直接"看"出答案。

别人还在计算，他已经写完了。

这种能力让他对数学产生了强烈的正反馈。

每做对一道题，就想做更难的。从小学到初中，再到高中，这个循环一直在加速。

但他很早就意识到一件事：自己需要比别人更早开始学东西。

初中的时候，他就开始自学高中数学。

不是因为学校要求，而是他觉得这是对自己未来的投资。

与其现在刷简单的题，不如提前学一些对未来有用的东西。

"我不是在学习，我是在投资。"初中生能有这种想法，挺罕见的。

信息差是最大的不公平

到了清华，翁家翌做了一件让他在校园里出名的事：把自己所有的作业和资料全部开源到GitHub上。

为什么？

因为他觉得信息差是一种不公平。

信息差：指不同人获取信息的能力和渠道不同，导致在同等努力下产出差异巨大。比如同样考清华，有人知道哪些资料最有用，有人完全靠自己摸索。

在清华，信息差是真实存在的。

有些人能通过学长学姐拿到历年考题和优质笔记，有些人只能自己埋头苦学。

翁家翌觉得这不对，每个人都应该平等地拥有这些信息。

于是他把自己整理的所有资料放到网上，谁都可以用。

这不是为了出名，是他真心相信的一件事：代码和工具是一种慈善。

后来他做的很多事，包括开源强化学习框架"天授"、做免费的签证查询系统tuixue.online，都是同样的逻辑。

"发论文完全没有意义"

大二的时候，翁家翌进了朱军老师的实验室，开始接触强化学习。

强化学习（Reinforcement Learning）：一种让AI通过试错来学习的方法。就像训练小狗，做对了给奖励，做错了不给。AI通过不断尝试，慢慢学会做出正确的选择。

他选强化学习几乎是随机的，甚至一开始还把它和GAN搞混了。

但做着做着，他发现了一个让他抓狂的问题：当时的强化学习库太难用了。

代码又臃肿又乱，想跑个实验得先花大量时间搞清楚框架怎么用。

这让他很不爽。

于是他花了两周时间，自己写了一个强化学习库，叫"天授"。

设计理念只有一个：简洁、优雅、好用。

天授很快在GitHub上火了，拿到了好几千个star。

但翁家翌对这个结果的反应很有意思，他说：

"我不想发paper。我觉得发paper完全没有意义。"

他在乎的是影响力，是有多少人用他写的代码。

发一篇论文能有几个人看？但写一个好用的库，可能有成千上万的人每天在用。

这个观点在学术界是异端，但在他后来的职业选择中一直贯穿始终。

读PhD是浪费生命？

本科毕业后，翁家翌没有选择读博士。

他的观点相当激进：如果你想进工业界，读PhD就是浪费生命。

因为技术范式变化太快了。

等你博士毕业，你研究的那个方向可能已经过时了。

而且工业界看重的是你能不能干活，不是你有没有博士学位。

他引用了一个同事的话：

"教一个researcher如何做好engineering，要远比教一个engineer如何做好research更难。"

这句话后来成了他的信条。

在大模型时代，想法是便宜的，真正稀缺的是把想法变成现实的工程能力。

加入OpenAI：为什么不选Google？

2022年，翁家翌面临选择：Google、字节跳动、DeepSeek、OpenAI。

他选了OpenAI。

不是因为钱最多，而是因为他想学习。

当时的OpenAI是全球强化学习做得最好的地方。

翁家翌想知道，这些人到底是怎么训出这么厉害的模型的？

John Schulman面试他的时候，对他的GitHub star数量印象深刻。

那代表着真实的影响力，有这么多人在用他写的代码。

John Schulman：OpenAI的联合创始人之一，PPO算法的发明者。PPO是目前大模型RLHF训练中最常用的算法。

面试有一道end-to-end的coding题，翁家翌两个小时就做完了。

Schulman当场就决定要他。

"卖铲子"的哲学

在OpenAI，翁家翌的工作是搭建后训练阶段的强化学习基础设施。

听起来很抽象，实际上可以这样理解：

大模型的训练分两个阶段。

第一阶段叫预训练，就是让模型读海量的文本，学会语言的基本规律。

第二阶段叫后训练，让模型学会按照人类的偏好来回答问题。

RLHF（人类反馈强化学习）：后训练的核心技术。简单说就是让人类给AI的回答打分，AI根据这些反馈来调整自己的行为。这就是为什么ChatGPT会尽量给出有帮助的、礼貌的回答。

翁家翌负责的就是让RLHF能够在大规模集群上稳定运行。

他把自己的工作比喻成"卖铲子"。

淘金热的时候，真正赚钱的不是淘金的人，而是卖铲子、卖牛仔裤的人。

在AI研究中，真正推动进步的不是那些提出新想法的人，而是能把想法变成可运行代码的人。

"每家的infra都有不同程度的bug，谁修的bug越多，谁的模型训得就越好。"

这句话听起来很土，但确实是他在OpenAI的真实体会。

研究员可能比工程师先被AI替代

翁家翌有一个有趣的预测：AI时代，研究员可能比基础设施工程师先被替代。

为什么？因为提出想法相对容易，AI已经可以做得不错了。

但维护复杂的基础设施代码，修复那些隐藏很深的bug，这些事情目前AI还做不好。

他甚至觉得，销售可能是最不容易被替代的职业之一。

因为销售需要人与人之间的连接和说服力，这是AI很难完全复制的。

对年轻人的建议

翁家翌给想进入AI行业的年轻人几个建议：

第一，尽早进入工业界。

如果你的目标是在AI公司工作，那就不要在学校耗太久。

硕士学位加上相关实习经验，比博士学位更有用。

第二，工程能力比研究能力更重要。

现在是大模型时代，想法到处都是，GPT自己就能生成无数个。

真正稀缺的是能把想法落地的工程能力。

第三，建立自己的评价体系。

不要被GPA套住。

找到能让你脱颖而出的差异化优势，比如开源项目、竞赛成绩、GitHub star数量。这些比GPA更能证明你的能力。

第四，投资你的未来。

学习不是为了应付考试，而是为了构建你的知识体系。

提前学一些对未来有用的东西，哪怕短期内看不到回报。

工程师的自我修养

翁家翌的故事让我想到一个问题：我们对"成功"的定义是不是太狭隘了？

在学术界，成功意味着发论文、拿学位、成为教授。

但翁家翌走了一条完全不同的路。他不发论文，不读博士，但他的代码被几乎所有OpenAI的模型使用。

他的影响力不是通过论文引用来衡量的，而是通过有多少人在用他写的工具。

这可能是一种更务实的影响力。

在AI这个快速变化的领域，算法和理论可能很快就会过时，但好的工程实践会沉淀下来。

那些让系统更稳定、更高效的工作，虽然不显眼，但确实在推动整个行业向前。

翁家翌说，他评价自己人生成功与否的标准是：死后还有多少人记得他的名字。

通过他开源的代码、他搭建的基础设施、他帮助过的人，这个数字可能会比发一百篇论文更大。

这是一个工程师对世界的理解方式。不追求虚名，只追求实打实的影响力。

也许，这才是这个时代最稀缺的东西。