AI 圈的凌晨大战: Opus 4.6 和 GPT-5.3 Codex 同一天发布,怎么选?

9 阅读5分钟

凌晨 2 点,我刚准备睡觉,手机突然炸了。

Anthropic 发布了 Claude Opus 4.6。我以为这就够了,结果 20 分钟后,OpenAI 推出了 GPT-5.3 Codex。

两家头部公司在同一天放大招,这种情况确实少见。我通宵看了所有官方资料和技术细节,下面说说我的理解。

Opus 4.6: 100 万上下文和智能体团队

先说几个关键数据:

  • TerminalBench 2.0: 65.4%
  • OSWorld: 72.7% (比 4.5 的 66.3% 高了不少)
  • BrowseComp: 84.0%
  • ARC AGI 2: 68.8%

ARC AGI 2 这个成绩挺夸张的。这项测试是看模型在不依赖已有知识的情况下,在全新情境中推理和解决问题的能力——说白了就是悟性。几个月前 GPT-5.2 Pro 才刚到 50% 多,Opus 4.6 直接干到 68.8%,差点摸到 70%。

但我更看重产品层面的变化。

终于有 100 万上下文了

之前 Opus 系列只有 200K 上下文,这次直接翻 5 倍。更重要的是,它没有出现 "context rot" 问题——就是用久了模型变蠢。

在 MRCR v2 测试中,100 万 token 里藏 8 根针,Opus 4.6 拿了 76%,Sonnet 4.5 只有 18.5%。这意味着什么?现在可以一次性扔给它几百页的法律文件或者大公司的财报,不用担心它 "忘了前面的内容"。

输出上限也从 64K 翻到 128K。Context Compaction (上下文压缩) 现在模型自带了,不用再担心对话太长被截断。

Adaptive Thinking 让它自己判断要不要深度思考,或者你可以手动设置 low/medium/high/max 四档。简单问题快答,复杂问题多想一会。

Agent Teams 模式

这个可能更实用。

以前是一个 Claude 在干活。现在可以有多个:一个当负责人协调任务,其他人各自独立工作,还能相互沟通。

举个实际例子:要做代码审查,需要看前端、后端、数据库。以前得分三次,现在说 "帮我审查这个代码库",Claude 会自动启动 3 个团队成员,一个看前端、一个看后端、一个看数据库,最后汇总给你。

C 编译器实验

Anthropic 做了个测试:让 16 个 Opus 4.6 智能体从零开发 C 编译器,要求能编译 Linux 内核。

结果:

  • 近 2000 次会话
  • 消耗 20 亿输入 token,生成 1.4 亿输出 token
  • API 成本约 2 万美元
  • 产出一个 10 万行代码的编译器
  • 可在 x86、ARM、RISC-V 上编译 Linux 6.9
  • 99% 通过率
  • 甚至能跑 Doom

这个实验说明它确实能长时间自主工作、协调复杂项目。

价格

API 价格没变。标准 5525 每百万 token,超过 20 万上下文 101037.50。

GPT-5.3 Codex: 参与自己开发的模型

再说说 Codex。

几个关键数据:

  • SWE-Bench Pro: 57%
  • TerminalBench 2.0: 76% (比 Opus 4.6 高 11.9 个百分点)
  • 令牌消耗减少一半
  • 速度提升 25%

最有趣的是: OpenAI 说 Codex 团队在开发 GPT-5.3 时,用早期版本 debug 训练过程、管理部署、诊断测试结果。用人话说:AI 参与了自己的开发。OpenAI 团队被这种加速程度震惊了。

从零做游戏

OpenAI 展示了两个用 GPT-5.3 Codex 做的游戏:

  • 赛车游戏: 不同赛车、八张地图、道具系统
  • 潜水游戏: 珊瑚礁探索、氧气压力管理、危险要素

都是几天时间里,模型自主迭代数百万 token 做出来的。

可以随时打断

这个更新我挺喜欢。以前用 AI,只能等它干完。现在可以在它工作的时候随时介入、调整方向。

Codex 会频繁推送进度,你可以实时提问、引导它往某个方向走,不用担心丢失上下文。

也能做知识工作

GPT-5.3 Codex 不只是写代码。在 GDPval 测试中 (44 个职业、1320 个真实任务),它表现跟 GPT-5.2 持平。制作 PPT、数据分析、写 PRD、用户研究这些都能做。

怎么选?

简单说:

Opus 4.6:

  • 100 万上下文,适合超大文档
  • Agent Teams 适合复杂协作
  • 长程推理和流体智力强
  • 没有 "上下文腐烂" 问题

Codex 5.3:

  • 代码基准测试领先
  • 速度快,可以实时交互
  • 令牌消耗少,性价比高
  • 更擅长修 bug 和难点

一句话: Opus 主打深度分析和协同调度,Codex 主打极速运行和代码开发。

实际选择

如果需要处理超大文档、长时间自主工作、复杂项目协作,选 Opus。

如果是日常编程、修 bug、快速迭代、需要频繁交互,选 Codex。

但说实话,两者不是对立关系。我现在的工作流通常是:

  • Claude Opus 4.6 + Claude Code: 打草稿、做架构
  • GPT-5.3 Codex + Codex: 精准开发、修 bug

行业变化

这次发布让我意识到:软件开发真的在变

从最早的代码补全,到自动完成函数体,到结对编程,再到现在的 Agent Teams 和实时交互——AI 从工具变成协作伙伴。

Anthropic 在 B 端 (Excel、PowerPoint 集成) 发力很明显。OpenAI 的 B 端和生产力体验确实落后了一些,但两家都在快速进步。

未来的开发者可能不再只是 "写代码的人",而是产品架构师、AI 协作协调者、质量把控者。AI 处理重复工作,我们专注创造性部分。

给开发者的建议

如果你还没用过 Claude Code 或 Codex,现在可以试试。

现在的模型几乎都是奔着 Coding 和 Agent 去的,跟手机一样,用新不用旧。AI 行业变化太快,今天的最强,几个月后可能就被超越。保持学习、持续实验才不会被淘汰。

跑分能说明一些问题,但跑分和实际体验之间往往有鸿沟。很多模型跑分高但用起来不顺手,有些跑分一般但某些场景挺好用。最好的方法:亲自试一试。

最后

今天确实是 AI 行业的大日子。Anthropic 发了 Opus 4.6,OpenAI 发了 GPT-5.3 Codex。两家在能力上快速进步、差距缩小,产品形态都押注 Agent 但侧重点不同。

我不知道一年后这个行业会变成什么样。但现在确实需要密切关注、积极学习。

错过这一波,可能就真的错过了。


延伸阅读: