凌晨突袭！GPT-5.3-Codex手撕代码，OpenAI让AI开始造AI了在这个2026年2月的寒冷清晨，科技圈的很多

在这个2026年2月的寒冷清晨，科技圈的很多开发者大概又是被手机震醒的。

就在几个小时前，硅谷上演了一场经典的“神仙打架”。Anthropic前脚刚发布Claude Opus 4.6，OpenAI后脚就甩出了GPT-5.3-Codex。相差不过几分钟，但这不仅仅是巧合，更是两条路线的正面硬刚。

如果你还以为这只是又一次常规的模型升级，只是写代码稍微快一点，那你就大错特错了。根据目前流出的各路评测和媒体报道，OpenAI这次没打算和你聊“聊天机器人”，他们直接把“全能智能体”摆上了桌面。

不只是写代码，它是你的硅谷合伙人

很长一段时间里，我们在使用Copilot或者ChatGPT时，心里是有预期的：它是个助手，我得盯着它，因为这货随时可能胡言乱语。

但GPT-5.3-Codex的定位彻底变了。它不再满足于当你敲代码时的自动补全工具，它想接管你的整个工作流。

现在的它，能从头到尾干完一套活：写代码、自己调试、跑单元测试、去终端环境里配置服务器，甚至最后还能帮你把产品文档（PRD）和PPT写好。以前我们说AI是“副驾驶”，现在的感觉是，它想坐主驾驶位，你只要在旁边喝咖啡喊口号就行。

这种底气来自哪里？看看数据就知道了。

在Terminal-Bench 2.0这个专门测试终端操作和环境配置的考场上，GPT-5.3-Codex拿下了77.3%的高分。作为对比，上一代还在64%徘徊。这意味着在面对那些让人头秃的黑框命令行时，它的表现已经不仅是“能用”，而是“精通”。

更杀人诛心的是，有数据显示，在这一项上它比隔壁同期发布的Claude Opus 4.6高出了将近12个百分点。虽然Claude在长文本推理上依然强悍，但在这种还要动手干脏活累活的工程能力上，OpenAI这次确实秀了一把肌肉。

快，而且省

对于企业主和开发者来说，性能强固然好，但“贵”是原罪。

这次更新最让我感到意外的，不是它能考多少分，而是它的效率。根据测试，GPT-5.3-Codex在完成同等复杂度的任务时，消耗的Token数量直接砍半。与此同时，推理速度提升了25%。

这意味着什么？意味着它的废话变少了，直击痛点的能力变强了。以前你得跟AI来回拉扯十几个回合才能修好的Bug，现在可能三两下就解决了。这不仅仅是省钱，更是省命——毕竟谁也不想在大半夜陪AI玩猜谜游戏。

还有一个非常人性化的改进：实时引导。以前的任务是“离手不管”，你发了指令就得干等结果。现在你可以像指导坐在你工位旁的实习生一样，中间随时插嘴：“不对，这个方向错了，换个库试试。”这种交互模式的改变，才是真正让AI融入团队的关键。

细思极恐的“自我迭代”

整场发布会最让我起鸡皮疙瘩的，其实是OpenAI轻描淡写透露的一句话：

这是首个参与了自身开发过程的模型。

没错，OpenAI的工程师们在训练GPT-5.3-Codex时，已经在使用它的早期版本来调试训练流程、管理部署甚至诊断问题了。

这听起来很像科幻电影的开场白，AI开始通过自我递归来加速进化。虽然目前还需要人类把控方向，但这层窗户纸捅破后，技术迭代的速度可能会超出我们的线性认知。

当然，能力越强，风险越大。OpenAI这次也很谨慎，因为这东西的网络攻击能力也被评定为“高”。所以API接口暂时没开，目前只有ChatGPT的付费用户（Plus、Team、Enterprise）可以通过Codex应用、命令行工具（CLI）或IDE插件尝鲜。为了安抚安全界，他们还专门掏了1000万美元搞防御研究。

写在最后

看着手中这份新鲜出炉的报告，我的感觉很复杂。

一方面，作为工具使用者，GPT-5.3-Codex带来的生产力释放是诱人的。它能帮我们搞定那些繁琐的文档、讨厌的环境配置和无穷无尽的单元测试。

另一方面，作为从业者，我们也清晰地看到了门槛的提升。当AI已经能熟练操作操作系统、能自我Debug甚至能优化自己的时候，“写代码”这项技能本身的护城河，正在被以前所未有的速度填平。

2026年的春天，比以往来得更早一些，也更猛烈一些。各位，准备好迎接这位新同事了吗？

如果你也对最新的AI信息感兴趣或者有疑问都可以加入我的大家庭第一时间分享最新AI资讯、工具、教程、文档欢迎你的加入！！！😉😉😉

公众号：墨风如雪小站