上周 OpenAI 发布了 GPT-5.3-Codex,官方定位是"最强 agentic coding model"。作为一个日常用 Claude 写代码、同时密切关注 OpenAI 动态的工程师,我想尽量客观地聊聊这次发布——哪些东西确实令人兴奋,哪些地方需要打个问号。
核心能力:不止是 benchmark 刷分
先说数字。GPT-5.3-Codex 在 SWE-Bench Pro 和 Terminal-Bench 上均创下新高,比上一代 GPT-5.2-Codex 快了约 25%,并且将多语言支持从 Python 为主扩展到了 4 种语言的深度覆盖。OSWorld benchmark(衡量模型操作计算机的综合能力)的表现也相当强劲,GDPval benchmark(覆盖 44 个职业的知识工作任务)则与 GPT-5.2 持平。
数字之外,真正值得关注的是两个能力跃迁:
长时间复杂任务的执行能力。 这不是"帮我写个函数"的水平,而是能接手一个跨多文件、需要理解上下文依赖关系的工程任务,持续运行直到完成。OpenAI 的演示里展示了从 PRD 撰写、数据分析到部署监控的全流程 agent 能力——代码生成只是其中一环。
实时交互式协作(steering)。 这是我觉得最有意思的设计。传统的 AI coding 工作流是"给 prompt → 等结果 → 不满意再来一轮",而 GPT-5.3-Codex 支持在任务执行过程中实时查看进度、中途调整方向。这更接近你和一个初级工程师 pair programming 的体验——你可以在他写到一半时说"等一下,这个方向不对,换个思路"。
说实话,这两个能力加在一起,已经不是"代码生成工具"的范畴了,而是在往"AI 软件工程师"的方向走。
自举训练:最大胆的宣言,也是最大的问号
这次发布最抓眼球的说法是:GPT-5.3-Codex 是"第一个参与创造自身的模型"。 据 OpenAI 描述,早期版本的模型被用于调试自身的训练流程、管理部署、诊断测试失败。
这个概念在计算机科学里并不新鲜——编译器的 bootstrapping(自举)是经典案例。用自己编译自己,每一代比上一代更好。但把这个思路用在大模型训练上,含义要复杂得多。
从正面看,这说明 OpenAI 对自家模型的 coding 能力有足够信心,敢在生产级的关键流程中依赖它。如果模型真的能有效参与自身训练管线的维护,这是一个正反馈循环:模型越强 → 训练流程越高效 → 下一代模型更强。
但硬币的另一面是:谁来审计这个循环? 当模型参与自己的训练和测试诊断时,如何确保它不会"学会讨好评估指标"?如何保证错误不会在自举循环中被放大?传统编译器的自举有严格的形式化验证作为护栏,大模型目前还没有这样的理论基础。
我不是在说 OpenAI 一定没处理好这些问题,而是——这条路一旦走通,其影响远超 coding 领域,它本质上是在探索 AI 系统的自我改进。这个方向上的每一步都值得整个行业认真审视。
与 Claude 的对比:不同的路径,殊途同归
作为 Claude 的重度用户,我自然会拿它来对比。目前我日常使用的是 Claude Opus 4.6,它的 agentic coding 能力同样在快速进步。
一个我亲身经历的例子:Claude Opus 4.6 可以从零构建一个完整的 CCC 编译器——不是生成代码片段,而是理解编译器的整体架构、处理词法分析到代码生成的完整管线、能跑通测试用例。这种"理解系统全貌再动手"的能力,是 agentic coding 的核心。
两家的路径有明显差异:
| 维度 | GPT-5.3-Codex | Claude Opus 4.6 |
|---|---|---|
| 强调点 | 速度、多语言、交互式协作 | 深度推理、长上下文理解 |
| Agent 范式 | 全能型(PRD、部署、监控) | 编码专精,推理链更透明 |
| 自我改进 | 自举训练(公开宣传) | 未公开类似策略 |
| 交互模式 | 实时 steering | 偏向一次性长输出 |
坦率地说,GPT-5.3-Codex 在"广度"上更激进——它想做一个什么都能干的 software agent,而 Claude 在"深度"上的表现依然让我印象深刻,尤其是在需要复杂推理的场景下(比如调试一个隐蔽的并发 bug,或者重构一个紧耦合的遗留系统),Claude 的思维链更清晰、更可追溯。
不过,OpenAI 的 steering 机制确实是一个实用的创新。我在用 Claude 做大任务时,最痛苦的时刻就是等它输出完一大段代码,然后发现方向不对,只能重来。如果能在中途介入调整,效率会高很多。这是两家都应该重视的 UX 方向。
冷思考:benchmark 与真实世界的鸿沟
每次看到"创新高"的 benchmark 数字,我都会习惯性地往后退一步想:这对我明天写代码有多大影响?
几个值得冷静思考的点:
SWE-Bench 的代表性问题。 SWE-Bench Pro 虽然比原版更难,但它的 task 分布仍然偏向有良好测试覆盖的开源项目。现实中的工程问题往往是——文档缺失、测试不全、需求模糊、代码库里有三代人的技术债。在这种环境下,模型的真实表现可能和 benchmark 差距不小。
"全能 agent"的可靠性。 OpenAI 演示了从 PRD 到部署的全流程能力,但演示归演示。任何写过生产级 CI/CD pipeline 的人都知道,部署流程中的 edge case 多到离谱。我很想看到的不是"能做",而是"做错了怎么办"——错误恢复、回滚策略、权限控制,这些才是真正的硬骨头。
速度提升 25% 的实际感知。 对于短任务(几十行代码),25% 的速度提升几乎感知不到。对于长时间运行的复杂任务,速度确实重要,但更重要的是"一次做对"的概率。如果快了 25% 但需要多跑两轮,净效率反而下降。
GDPval 持平意味着什么。 在 44 个职业的知识工作任务上和上一代持平,说明 5.3 的提升集中在 coding 领域,通用能力并没有同步进步。这是合理的工程选择(专项优化),但也意味着它作为"通用 agent"还有一段路要走。
结论:竞争是好事
GPT-5.3-Codex 是一个值得认真对待的产品。自举训练的尝试有开创性意义,实时交互的设计解决了真实痛点,benchmark 的提升也不是空话——它确实在推动 AI coding agent 的能力边界。
但作为一个每天用这些工具写代码的工程师,我的判断标准始终是:它能不能让我在真实项目中少加一小时班? 这个问题的答案,不在发布会上,也不在论文里,而在接下来几个月的实际使用中。
AI coding agent 的竞争格局正在变得越来越有意思。OpenAI 在做"全能型 agent",Anthropic 在深耕推理和可靠性,两条路都有道理,也都有各自的短板。作为用户,我乐见其成——竞争是推动这个领域进步的最好燃料。
下一步,我打算在实际项目中对比测试两家在几个典型场景下的表现:大型代码库的 bug 定位、跨文件重构、从零搭建项目。到时候再写一篇实测报告,用代码说话。
⚡ 想同时用 Claude 和 GPT? OfoxAI 提供统一的 AI API 接入,一个平台调用 Claude、GPT 等主流模型,省去多账号管理的麻烦。首次充值输入优惠码
OFOXAI2026享 8 折优惠,使用推荐码AFF_KOGPMT还可获得 $3.00 免费 Credits。