一位OpenAI离职员工的深度反思本文首发公众号猩猩程序员欢迎关注本文来自 https://calv.info/o

本文首发公众号 猩猩程序员 欢迎关注

三周前，我离开了OpenAI。我最初加入这家公司是在2024年5月。

我想分享一些个人感受，因为外界对OpenAI的讨论虽多，却鲜少有人真正描述过在那里工作的实际体验。

Nabeel Quereshi曾写过一篇精彩的文章《关于Palantir的思考》，深入剖析了Palantir的独特之处。我希望趁记忆犹新，为OpenAI写下类似的记录。这里不会有任何商业机密，更多是对这个处于历史关键阶段的非凡组织的一些观察。

首先声明：我的离职没有任何个人矛盾——事实上，这个决定让我非常纠结。从自己创业到成为一家3000人公司的员工，这种转变并不容易。此刻的我渴望一个新的开始。

未来工作的吸引力完全可能让我回归。毕竟，很难想象还有什么比AGI（通用人工智能）更具影响力，而大语言模型（LLM）无疑是这十年来最重大的技术创新。能亲眼见证某些突破性进展并参与Codex的发布，我感到无比幸运。

当然，这些观点仅代表我个人。OpenAI规模庞大，而这是我的小小观察窗口。

文化

关于OpenAI，首先要了解的是它惊人的增长速度。我加入时公司刚过1000人，一年后已超3000人——而我的在职时长竟排在前30%。几乎所有管理层的工作内容都与2-3年前截然不同。

这种急速扩张必然带来各种问题：公司沟通机制、汇报体系、产品交付流程、人员管理、招聘制度等等。团队文化差异显著：有些团队始终冲刺，有些专注维护大型系统，还有些保持稳定节奏。研究部门、应用部门和市场推广部门的工作周期也完全不同。

OpenAI有个独特之处：一切（真的是所有事务）都通过Slack运作。几乎没有电子邮件——我在职期间收到的邮件不超过10封。如果不善管理，这种环境会让人分心；但若能优化频道和通知设置，效率反而很高。

公司高度推崇自下而上的决策，尤其在研究领域。我刚入职时询问下季度路线图，得到的回答是"这个不存在"（现在有了）。好想法可能来自任何地方，而事前往往难以判断哪些最有价值。进步不是靠某个"宏伟计划"，而是随着研究成果迭代涌现。

这种文化也造就了极强的精英氛围。历史上，公司领导者的晋升主要基于提出好点子并执行的能力。许多能力超群的高管并不擅长全员演讲或政治运作——这在OpenAI的影响远小于其他公司。最好的想法通常能胜出。

行动力是另一个显著特质（你可以直接动手做）。不同团队独立想到类似点子很常见。我最初参与的一个内部项目就与ChatGPT Connectors类似。在决定推出Codex前，公司内部至少存在3-4个不同的原型。这些尝试通常由少数人自发启动，随着潜力显现才会形成正式团队。

Codex负责人Andrey常说，研究者应该把自己视为"迷你CEO"。公司鼓励你专注自己的方向并验证结果。这也意味着，大多数研究是通过让研究者对某个问题"上瘾"来推进的——如果某个领域被视为无聊或"已解决"，很可能无人问津。

优秀的研究经理影响巨大但权限有限。最出色的那些能串联不同研究项目，整合成更大规模的模型训练。杰出产品经理也是如此（向ae致敬）。

与我共事的ChatGPT工程经理（Akshay, Rizzo, Sulman）是我见过最淡定的团队。他们仿佛早已见识过一切。多数时候他们放手不管，但会确保招到合适的人并为其创造成功条件。

OpenAI的转向速度极快。这让我想起在Segment时重视的价值观：根据新信息调整方向，远比固执执行原计划更重要。令人惊讶的是，OpenAI如此庞大却仍保持这种精神——谷歌显然已失去这一点。公司决策迅速，一旦确定方向就会全力投入。

外界对OpenAI的审视超乎想象。作为来自B2B企业背景的人，我一度难以适应。经常出现媒体报道早于内部通知的情况。当我说自己在OpenAI工作时，对方往往已形成固有看法。甚至有推特用户运行自动化机器人监测新功能发布。

因此，OpenAI保密程度极高。我无法向任何人详述工作内容。Slack按权限分为多个工作区，营收和资金消耗数据更是严格保密。

这里也比想象中更严肃，部分源于极高的风险感知。一方面要构建AGI——这意味着不能出错；另一方面要维护数亿用户依赖的产品（从医疗建议到心理辅导）；同时还在参与全球最激烈的技术竞赛。我们会密切关注Meta、谷歌和Anthropic的动态——相信他们也是如此。世界各国政府也对此领域虎视眈眈。

尽管媒体常批评OpenAI，但我接触的同事都在努力做正确的事。作为最受公众关注的大型实验室，它自然承受更多非议。

不过，最好不要把OpenAI视为铁板一块。我认为它最初像洛斯阿拉莫斯实验室——一群探索科学前沿的研究者和工匠。这个群体意外创造了史上最具病毒性的消费应用，继而发展出服务政府和企业的雄心。不同资历、不同部门的员工目标差异巨大。资历越深的人，越可能通过"研究实验室"或"非营利组织"的视角看待事务。

我最欣赏的是公司真正践行"AI普惠"的理念。最前沿的模型不会留给需要年费协议的企业客户。世界上任何人都能直接使用ChatGPT获取答案（甚至无需登录）。注册API即可使用大多数模型（包括最先进或专有技术）。想象一下另一种截然不同的运营模式——OpenAI的选择值得盛赞，这仍是其核心DNA。

安全工作的投入远超外界想象（如果你常读Zvi或Lesswrong可能会意外）。大量人员致力于开发安全系统。基于OpenAI的特性，我看到更多关注实际风险（仇恨言论、滥用、政治偏见操控、生物武器制造、自残行为、提示词注入）而非理论风险（智能爆炸、权力追求）。当然也有人研究后者，但据我观察并非重点。多数工作未公开，OpenAI确实应该加强这方面透明度。

不像其他公司在招聘会上狂发周边，OpenAI的纪念品极少（连新员工也拿不到多少）。但会有定期"掉落"活动，可以抢购库存商品。第一次活动直接挤爆了Shopify店铺。内部甚至流传过如何用POST发送正确JSON绕过系统的教程。

与GPU成本相比，其他开支几乎可以忽略。举个例子：Codex产品中一个小众功能的GPU消耗，就相当于我们整个Segment基础设施的成本（虽不及ChatGPT规模，但也承载相当流量）。

OpenAI可能是我见过野心最可怕的组织。拥有全球顶级消费应用本可满足多数公司，但它还渴望在数十个领域竞争：API产品、深度研究、硬件、编程代理、图像生成，以及若干未公布项目。这里遍地都是可以付诸实践的想法。

公司极度关注推特。如果你的OpenAI相关推文爆火，很可能被内部讨论。朋友开玩笑说"这家公司靠推特情绪运行"。作为消费级公司，或许不无道理。虽然仍有大量关于使用率、用户增长和留存的分析，但情绪同样重要。

团队流动性极高。发布Codex时，我们需要几位资深ChatGPT工程师支援。与工程经理沟通后，次日就有两位高手到位。没有"等待季度规划"或"调整人力编制"，响应速度快得惊人。

领导层高度可见且深入参与。这在OpenAI这样的公司或许不意外，但每位高管都极其投入。你总能看到gdb、sama、kw、mark、dane等人在Slack上活跃。没有挂名领导。

技术

OpenAI使用巨型单体代码库（主要是Python，也有越来越多Rust服务和零星Golang网络代理）。这导致代码风格千奇百怪——毕竟Python写法太灵活。你会同时看到10年谷歌老手设计的高扩展性库，和刚毕业博士写的临时Jupyter笔记本。基本都用FastAPI构建接口，Pydantic做验证，但没有统一的风格规范。

所有服务运行在Azure上。有趣的是，我只信任其中三个产品：Azure Kubernetes服务、CosmosDB（文档存储）和BlobStore。没有真正媲美Dynamo、Spanner、Bigtable、BigQuery、Kinesis或 Aurora的产品。自动扩展单元的设计思路较罕见，IAM实现也比AWS局限得多。公司倾向自研解决方案。

人才方面（至少工程岗），Meta→OpenAI的输送管道非常显著。OpenAI在很多方面像早期的Meta：现象级消费应用、新生基础设施和快速行动欲望。从Meta/Instagram引进的基础设施人才都很强。

这些因素共同造就了颇具Meta风格的基础设施核心：自研TAO重实现、边缘身份验证统一等（肯定还有其他我不知道的）。

"聊天"概念深入骨髓。自从ChatGPT爆发，大量代码围绕消息和会话构建。这些基础元素已根深蒂固，忽视它们风险自负。Codex虽有所偏离（更借鉴responses API经验），但仍继承了大量现有成果。

代码决定一切。没有中央架构委员会，决策权通常属于执行团队。这带来极强的行动偏向，也导致代码库存在大量重复。我见过至少半打队列管理或代理循环的类库。

快速扩张的工程团队和工具缺失也造成问题。sa-server（后端单体）像个杂物间。master分支的CI中断频率超乎预期。GPU上并行运行的测试用例（含部分依赖）可能需要30分钟。这些问题并非无解，但提醒我们快速扩张时此类问题会恶化。值得称赞的是，内部团队正在重点改进。

其他收获

消费级品牌的真实形态：直到参与Codex我才真正理解。一切以"专业订阅"衡量。即使是Codex这种产品，我们也主要考虑个人用户而非团队。这对B2B背景的我冲击很大——你按下开关，流量立刻涌来。

大模型训练方法论：存在从"实验"到"工程"的谱系。多数想法始于小实验，结果好才会融入大型训练。实验既涉及算法调整，也关乎数据配比和结果分析。大规模训练则像超分布式系统工程，总有意料之外的边缘情况需要调试。

GPU计算逻辑：为Codex发布预测负载需求时，我首次深入GPU基准测试。关键在于从延迟需求出发（总延迟、token数、首token时间），而非从GPU性能反推。每次模型迭代都可能彻底改变负载模式。

大型Python代码库协作：Segment采用微服务架构（主要是Golang和TypeScript），远不及OpenAI代码规模。我学到了如何根据开发者数量扩展代码库：必须建立更多护栏，比如"默认可用"、"保持master清洁"和"防误用"。

发布Codex

在OpenAI的最后三个月，我全力投入Codex发布——这无疑是我职业生涯的高光时刻。

背景是：2024年11月，OpenAI设定了2025年发布编程代理的目标。到2025年2月，我们已经有几个效果惊人的内部工具，市场也涌现出各种编程工具，发布压力与日俱增。

我提前结束陪产假参与发布。回归一周后，两个团队完成（略显混乱的）合并，开启疯狂冲刺。从第一行代码到最终产品，仅用7周。

那段时间是我近十年来最辛苦的工作：多数夜晚熬到11-12点，每天清晨5:30被新生儿吵醒，7点回到办公室，周末基本无休。整个团队全力以赴，因为每周都至关重要，让我想起YC的创业时光。

这种速度堪称奇迹。我从未见过任何规模的组织能在如此短时间内从想法到公开发布产品。何况Codex并非小项目：我们构建了容器运行时、优化仓库下载、微调代码编辑模型、处理各种git操作、设计全新交互界面、开通网络访问——最终产品体验极佳。

无论外界如何评价，OpenAI仍保持着发布精神。

关键团队创造了魔法：8名资深工程师、4名研究员、2名设计师、2名市场人员和1名产品经理。没有这个组合，我们必败无疑。虽然不需要太多指导，但协调至关重要。如果你有机会与Codex团队成员共事，请相信他们个个出色。

发布前夜，我们五人熬到凌晨4点部署单体服务（耗时数小时），然后8点回到办公室准备直播。功能开关启动后，流量瞬间涌入——我从未见过仅靠侧边栏入口就能引发如此爆发增长的产品，这就是ChatGPT的威力。

产品形态上，我们选择了完全异步的模式。不同于Cursor（当时）或Claude Code，我们让用户在独立环境中启动任务。我们打赌最终用户会把编程代理视为同事：发送请求，等待它完成工作，然后验收PR。

这有些冒险：当前模型处于"不错但不够好"的尴尬阶段——能连续工作几分钟而非几小时。用户对模型能力的信任度差异很大，甚至我们自己也说不清模型的真实边界。

长期来看，我相信大多数编程会趋近Codex模式。短期内，观察各产品演化会很有趣。

Codex（或许不意外）特别擅长处理大型代码库的导航和理解。最大差异化优势是能同时启动多个任务并比较结果。

最近公开数据显示，Codex已生成63万次PR。相当于发布53天来，每位工程师贡献7.8万次公开PR（私有PR倍数可自行想象）。我此生从未参与过如此影响力的项目。

离别感言

坦白说，最初我对加入OpenAI心存顾虑：放弃自由、拥有上司、成为大机器的小零件。我低调入职，以防不适应。

但我希望获得三样东西：

理解模型训练原理和能力演进
向优秀的人学习
发布伟大产品

回望这一年，这是我做过的最佳决定之一。难以想象在其他地方能学到这么多。

如果你是创始人且感到创业停滞，要么1）彻底反思如何增加尝试机会，要么2）加入大型实验室。当前既是建设的黄金期，也是窥见未来的绝佳窗口。

在我看来，AGI竞赛目前是三足鼎立：OpenAI、Anthropic和谷歌。基于各自DNA（消费级vs企业级vs坚固基础设施+数据），它们路径各异。在任一方工作都会大开眼界。

感谢Leah承担大部分育儿责任，让我能熬过无数深夜；感谢PW、GDB和Rizzo给我机会；感谢SA团队领我入门：Andrew、Anup、Bill、Kwaz、Ming、Simon、Tony和Val；更感谢Codex核心团队带给我的巅峰体验：Albin、AE、Andrey、Bryan、Channing、DavidK、Gabe、Gladstone、Hanson、Joey、Josh、Katy、KevinT、Max、Sabrina、SQ、Tibo、TZ和Will。我永志不忘这段冲刺。

本文首发公众号 猩猩程序员 欢迎关注