大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。
昨儿凌晨,Anthropic刚发布Claude Opus 4.6,半小时后OpenAI就跟上了GPT-5.3-Codex。
两家前一天还在网上互怼,第二天就掐着点发新模型。
核心要点
- GPT-5.3-Codex速度快了25%,Codex终于没那么慢了
- Claude Opus 4.6上下文扩到100万token,Agent Teams可以开多个智能体并行干活
- Terminal-Bench 2.0:GPT领先12个点,OSWorld:Claude领先8个点
- GPT用自己优化自己,Claude长上下文能力跃升
- 各有各的强项,没法简单比
Anthropic发布Opus 4.6,Terminal-Bench 2.0拿到65.4%,还没捂热乎呢,半小时后OpenAI的GPT-5.3-Codex就出来了,77.3%。第一名只保持了30分钟。
两家前一天还在社交媒体上互怼超级碗广告,第二天就同一天发模型。我猜OpenAI肯定提前知道了Anthropic的发布时间。
但用下来你会发现,这两个模型压根不是在打擂台。
GPT-5.3-Codex
大家对Codex啥印象?质量高,但是慢。
这次25%的速度提升,在体感上应该是比较明显了,等待后续亲试一下。
以前用Codex写代码,质量确实没话说,但等它的过程真的煎熬。虽然中间有输出,但看着那些片段式的东西,你也不知道它最后会给你个什么结果,会不会跑偏,更不敢随便打断它。
现在不一样了。
GPT-5.3-Codex这次加强了交互性,支持边做边聊,你可以随时问它“这个思路对吗”、“要不要换个方向”,实时调。
Terminal-Bench 2.0的77.3%(前代64.0%)也挺猛,SWE-Bench Pro 56.8%,OSWorld 64.7%。
Terminal-Bench
OSWorld
但对我来说,这个交互体验的改变比分数更实在。
GPT-5.3-Codex还是第一个用自己优化自己的模型。OpenAI团队用早期版本调它自己的训练、管理部署、诊断问题。这种“自己生自己”的操作,挺科幻的。
美学方面也进步了。
官方案例,做落地页的时候,5.3 自动将年度套餐显示为折扣后的月度价格,使折扣显得清晰明了,而非简单地将年度总价乘以月度总价。还会自动加用户评价轮播。
5.2的用户证言和价格展示:
5.3的用户证言和价格展示:
这些小心思,有点往Claude那个方向靠了。
而且,Token用量也更少了,省钱。
Claude Opus 4.6
Claude这次把Opus的上下文扩到了100万token,但目前还是beta测试版。
MRCR v2测试中,8个针头藏在100万token里找,Opus 4.6找到76%,Sonnet 4.5只找到18.5%。这个差距太大了。
实际用起来什么感觉?
大型项目的代码库,以前得拆成好几段喂,或者很快上下文超限,现在直接整个扔进去,它真能理解。不是那种装模作样地理解,是真的能在里面找到东西、理解关系。
上下文腐烂这个问题,基本解决了。
以前模型上下文长了就容易飘,重要信息会漏。Opus 4.6在100万token的情况下还能稳住,这个挺难得。
数据:
- Terminal-Bench 2.0:65.4%(被GPT超了12个点)
- SWE-bench Verified:80.8%
- OSWorld:72.7%(反超GPT 8个点)
- GDPval-AA:比GPT-5.2高144 ELO分
OSWorld是在真实桌面环境里完成任务,Claude 72.7%明显高于GPT的64.7%。复杂任务、多步骤推理,Claude更稳。
Agent Teams:
可以开多个智能体同时干活。做大型代码库迁移的时候,一个看依赖关系,一个改接口,一个写测试。不用你盯着,它们自己分工。你可以用Shift+Up/Down随时接管任何一个。
就像带了个小组在干活,你是组长。
这俩没法简单比
直接看能对比的数据:
Terminal-Bench 2.0(命令行和系统任务):
- GPT-5.3-Codex:77.3%
- Claude Opus 4.6:65.4% → GPT领先12个点
OSWorld(桌面环境任务):
- Claude Opus 4.6:72.7%
- GPT-5.3-Codex:64.7% → Claude领先8个点
没有谁碾压谁,各有擅长的点,反正我平时都是配合着使用。
写在最后
GPT解决了Codex最大的痛点:慢。Claude在长上下文上跃升了一大步。两个方向都对,都在推着AI编程往前走。
目前还没有深度实测体验,后续体验后看情况再额外给大家分享。
最后,国产几大新模型年前也马上要发布了,后面看下能有多少提升,还是蛮期待的。
更多内容,欢迎关注【子昕AI编程】微信公众号。