GPT-5.3-Codex快了25%，Claude Opus 4.6上下文扩到100万token，但谁更强？OpenAI

大家好，我是子昕，一个干了10年的后端开发，现在在AI编程这条路上边冲边摸索，每天都被新技术追着跑。

昨儿凌晨，Anthropic刚发布Claude Opus 4.6，半小时后OpenAI就跟上了GPT-5.3-Codex。

两家前一天还在网上互怼，第二天就掐着点发新模型。

核心要点

GPT-5.3-Codex速度快了25%，Codex终于没那么慢了
Claude Opus 4.6上下文扩到100万token，Agent Teams可以开多个智能体并行干活
Terminal-Bench 2.0：GPT领先12个点，OSWorld：Claude领先8个点
GPT用自己优化自己，Claude长上下文能力跃升
各有各的强项，没法简单比

Anthropic发布Opus 4.6，Terminal-Bench 2.0拿到65.4%，还没捂热乎呢，半小时后OpenAI的GPT-5.3-Codex就出来了，77.3%。第一名只保持了30分钟。

两家前一天还在社交媒体上互怼超级碗广告，第二天就同一天发模型。我猜OpenAI肯定提前知道了Anthropic的发布时间。

但用下来你会发现，这两个模型压根不是在打擂台。

GPT-5.3-Codex

大家对Codex啥印象？质量高，但是慢。

这次25%的速度提升，在体感上应该是比较明显了，等待后续亲试一下。

以前用Codex写代码，质量确实没话说，但等它的过程真的煎熬。虽然中间有输出，但看着那些片段式的东西，你也不知道它最后会给你个什么结果，会不会跑偏，更不敢随便打断它。

现在不一样了。

GPT-5.3-Codex这次加强了交互性，支持边做边聊，你可以随时问它“这个思路对吗”、“要不要换个方向”，实时调。

Terminal-Bench 2.0的77.3%（前代64.0%）也挺猛，SWE-Bench Pro 56.8%，OSWorld 64.7%。

Terminal-Bench

OSWorld

但对我来说，这个交互体验的改变比分数更实在。

GPT-5.3-Codex还是第一个用自己优化自己的模型。OpenAI团队用早期版本调它自己的训练、管理部署、诊断问题。这种“自己生自己”的操作，挺科幻的。

美学方面也进步了。

官方案例，做落地页的时候，5.3 自动将年度套餐显示为折扣后的月度价格，使折扣显得清晰明了，而非简单地将年度总价乘以月度总价。还会自动加用户评价轮播。

5.2的用户证言和价格展示：

5.3的用户证言和价格展示：

这些小心思，有点往Claude那个方向靠了。

而且，Token用量也更少了，省钱。

Claude Opus 4.6

Claude这次把Opus的上下文扩到了100万token，但目前还是beta测试版。

MRCR v2测试中，8个针头藏在100万token里找，Opus 4.6找到76%，Sonnet 4.5只找到18.5%。这个差距太大了。

实际用起来什么感觉？

大型项目的代码库，以前得拆成好几段喂，或者很快上下文超限，现在直接整个扔进去，它真能理解。不是那种装模作样地理解，是真的能在里面找到东西、理解关系。

上下文腐烂这个问题，基本解决了。

以前模型上下文长了就容易飘，重要信息会漏。Opus 4.6在100万token的情况下还能稳住，这个挺难得。

数据：

Terminal-Bench 2.0：65.4%（被GPT超了12个点）
SWE-bench Verified：80.8%
OSWorld：72.7%（反超GPT 8个点）
GDPval-AA：比GPT-5.2高144 ELO分

OSWorld是在真实桌面环境里完成任务，Claude 72.7%明显高于GPT的64.7%。复杂任务、多步骤推理，Claude更稳。

Agent Teams：

可以开多个智能体同时干活。做大型代码库迁移的时候，一个看依赖关系，一个改接口，一个写测试。不用你盯着，它们自己分工。你可以用Shift+Up/Down随时接管任何一个。

就像带了个小组在干活，你是组长。

这俩没法简单比

直接看能对比的数据：

Terminal-Bench 2.0（命令行和系统任务）：

GPT-5.3-Codex：77.3%
Claude Opus 4.6：65.4% → GPT领先12个点

OSWorld（桌面环境任务）：

Claude Opus 4.6：72.7%
GPT-5.3-Codex：64.7% → Claude领先8个点

没有谁碾压谁，各有擅长的点，反正我平时都是配合着使用。

写在最后

GPT解决了Codex最大的痛点：慢。Claude在长上下文上跃升了一大步。两个方向都对，都在推着AI编程往前走。

目前还没有深度实测体验，后续体验后看情况再额外给大家分享。

最后，国产几大新模型年前也马上要发布了，后面看下能有多少提升，还是蛮期待的。

更多内容，欢迎关注【子昕AI编程】微信公众号。