GPT-5.3-Codex快了25%,Claude Opus 4.6上下文扩到100万token,但谁更强?

0 阅读4分钟

大家好,我是子昕,一个干了10年的后端开发,现在在AI编程这条路上边冲边摸索,每天都被新技术追着跑。

昨儿凌晨,Anthropic刚发布Claude Opus 4.6,半小时后OpenAI就跟上了GPT-5.3-Codex

两家前一天还在网上互怼,第二天就掐着点发新模型。

核心要点

  • GPT-5.3-Codex速度快了25%,Codex终于没那么慢了
  • Claude Opus 4.6上下文扩到100万token,Agent Teams可以开多个智能体并行干活
  • Terminal-Bench 2.0:GPT领先12个点,OSWorld:Claude领先8个点
  • GPT用自己优化自己,Claude长上下文能力跃升
  • 各有各的强项,没法简单比

Anthropic发布Opus 4.6,Terminal-Bench 2.0拿到65.4%,还没捂热乎呢,半小时后OpenAI的GPT-5.3-Codex就出来了,77.3%。第一名只保持了30分钟。

两家前一天还在社交媒体上互怼超级碗广告,第二天就同一天发模型。我猜OpenAI肯定提前知道了Anthropic的发布时间。

但用下来你会发现,这两个模型压根不是在打擂台。

GPT-5.3-Codex

大家对Codex啥印象?质量高,但是慢。

这次25%的速度提升,在体感上应该是比较明显了,等待后续亲试一下。

以前用Codex写代码,质量确实没话说,但等它的过程真的煎熬。虽然中间有输出,但看着那些片段式的东西,你也不知道它最后会给你个什么结果,会不会跑偏,更不敢随便打断它。

现在不一样了。

GPT-5.3-Codex这次加强了交互性,支持边做边聊,你可以随时问它“这个思路对吗”、“要不要换个方向”,实时调。

Terminal-Bench 2.0的77.3%(前代64.0%)也挺猛,SWE-Bench Pro 56.8%,OSWorld 64.7%。

Terminal-Bench

Terminal-Bench

OSWorld

OSWorld

但对我来说,这个交互体验的改变比分数更实在。

GPT-5.3-Codex还是第一个用自己优化自己的模型。OpenAI团队用早期版本调它自己的训练、管理部署、诊断问题。这种“自己生自己”的操作,挺科幻的。

美学方面也进步了。

官方案例,做落地页的时候,5.3 自动将年度套餐显示为折扣后的月度价格,使折扣显得清晰明了,而非简单地将年度总价乘以月度总价。还会自动加用户评价轮播。

5.2的用户证言和价格展示:

图片

5.3的用户证言和价格展示:

图片

这些小心思,有点往Claude那个方向靠了。

而且,Token用量也更少了,省钱。

Claude Opus 4.6

Claude这次把Opus的上下文扩到了100万token,但目前还是beta测试版。

MRCR v2测试中,8个针头藏在100万token里找,Opus 4.6找到76%,Sonnet 4.5只找到18.5%。这个差距太大了。

图片

实际用起来什么感觉?

大型项目的代码库,以前得拆成好几段喂,或者很快上下文超限,现在直接整个扔进去,它真能理解。不是那种装模作样地理解,是真的能在里面找到东西、理解关系。

上下文腐烂这个问题,基本解决了。

以前模型上下文长了就容易飘,重要信息会漏。Opus 4.6在100万token的情况下还能稳住,这个挺难得。

数据:

  • Terminal-Bench 2.0:65.4%(被GPT超了12个点)
  • SWE-bench Verified:80.8%
  • OSWorld:72.7%(反超GPT 8个点)
  • GDPval-AA:比GPT-5.2高144 ELO分

图片

OSWorld是在真实桌面环境里完成任务,Claude 72.7%明显高于GPT的64.7%。复杂任务、多步骤推理,Claude更稳。

Agent Teams:

可以开多个智能体同时干活。做大型代码库迁移的时候,一个看依赖关系,一个改接口,一个写测试。不用你盯着,它们自己分工。你可以用Shift+Up/Down随时接管任何一个。

就像带了个小组在干活,你是组长。

这俩没法简单比

直接看能对比的数据:

Terminal-Bench 2.0(命令行和系统任务):

  • GPT-5.3-Codex:77.3%
  • Claude Opus 4.6:65.4% → GPT领先12个点

OSWorld(桌面环境任务):

  • Claude Opus 4.6:72.7%
  • GPT-5.3-Codex:64.7% → Claude领先8个点

没有谁碾压谁,各有擅长的点,反正我平时都是配合着使用。

写在最后

GPT解决了Codex最大的痛点:慢。Claude在长上下文上跃升了一大步。两个方向都对,都在推着AI编程往前走。

目前还没有深度实测体验,后续体验后看情况再额外给大家分享。

最后,国产几大新模型年前也马上要发布了,后面看下能有多少提升,还是蛮期待的。

更多内容,欢迎关注【子昕AI编程】微信公众号。