Claude Opus 4.6 vs GPT-5.3-Codex 同日发布深度整理

12 阅读7分钟

整理日期:2026-02-06 | 发布日期:2026-02-05 Anthropic 在 2 月 5 日下午 6:40 发布 Opus 4.6,OpenAI 仅 20 分钟后发布 GPT-5.3-Codex,堪称 AI 编程领域的"神仙打架"。


一、Claude Opus 4.6 核心特点

1.1 关键升级

特性Opus 4.5Opus 4.6
上下文窗口200K tokens1M tokens(beta,约 75 万字 / 1500 页)
Agent 模式单 Agent 串行Agent Teams(多 Agent 并行协作)
ARC AGI 237.6%68.8% (近乎翻倍)
MRCR v2(长上下文)18.5%76%
自适应思维根据任务复杂度自动调整推理深度

1.2 核心亮点

  • Agent Teams(智能体团队) :最重大的新功能。多个 Agent 可以拆分大型任务,各自负责一部分并直接协调,而非单个 Agent 串行处理。在 Claude Code 中尤为显著。
  • 1M 上下文窗口(beta) :首个支持百万 token 的 Opus 模型,可以在一次任务中处理整个代码库、大量文档或内部数据。
  • PowerPoint 集成:研究预览中直接集成到 Microsoft PowerPoint,可读取现有幻灯片的布局、字体和模板,生成或编辑幻灯片并保留设计元素。
  • 安全漏洞发现:发布数小时内,Opus 4.6 在开源代码中发现了 500+ 个此前未知的安全漏洞。
  • 金融分析排名第一:以 1606 Elo 评分在金融分析任务中排名首位。
  • Humanity's Last Exam 最高分:在这项复杂多学科推理测试中领先所有前沿模型。

1.3 演示案例

  • 一次生成完整物理引擎:在测试中一次性(one-shot)生成了一个完整可用的物理引擎,处理大范围多模块任务。
  • 幻灯片自动生成:将电子表格数据直接转化为专业演示文稿,保持设计一致性。
  • 开源代码安全审计:自动扫描并发现数百个安全漏洞。

1.4 可用性

  • 已在 claude.ai、API、以及所有主要云平台上线
  • 已集成至 GitHub Copilot
  • 已集成至 Google Cloud Vertex AI

1.5 定价

  • API 定价与前代一致(具体价格未在公告中明确更新)

二、GPT-5.3-Codex 核心特点

2.1 关键升级

特性GPT-5.2-CodexGPT-5.3-Codex
速度基准快 25%
Terminal-Bench 2.064.0%77.3%
OSWorld38.2%64.7%
SWE-Bench ProSOTA新 SOTA(行业最高)
自我参与构建首个参与自身构建的模型

2.2 核心亮点

  • 自我构建(Self-Built) :GPT-5.3-Codex 是首个在自身构建过程中发挥关键作用的模型——早期版本被用于调试训练、管理部署、诊断测试结果和评估。
  • 全自主开发:首个能"启动后离开,回来时看到可运行软件"的编码模型。有记录的自主运行超过 8 小时不退化。
  • 端到端开发闭环:独立完成编码、测试、部署、日志审查、迭代修复的完整开发生命周期。
  • 类人判断力:在提示缺乏细节时,做出的假设"与人类开发者惊人地相似"。
  • 实时协作交互:工作过程中频繁更新进展,用户可实时提问、讨论方案、引导方向。
  • 代码质量提升:产出更干净的架构,更少的临时补丁和隐蔽 bug。
  • 像人一样使用电脑:OSWorld 64.7% 的成绩意味着它能像人一样操作计算机完成任务。

2.3 演示案例

  • 8 小时自主编码:在无人干预下持续运行超 8 小时,交付完整可运行软件。
  • 跨仓库工作:无缝处理 Railway CLI 部署和跨代码仓库的协作任务。
  • 多 Agent 协作:多个 Agent 自然分工、专注各自工作流,展现协作能力提升。

2.4 可用性

  • 面向 ChatGPT 付费用户,通过 Codex App、CLI、IDE 扩展和 Web 界面提供
  • 开发者完整访问权限因安全考量延迟开放

2.5 安全警告

  • 这是 OpenAI 首个被标记为网络安全领域"High"能力的模型,触发了 Preparedness Framework 的相关安全措施。
  • Fortune 报道指出其引发了"前所未有的网络安全风险"。
  • OpenAI 以异常严格的控制措施推出此模型。

三、正面交锋:Benchmark 对比

基准测试Opus 4.6Codex 5.3说明
Terminal-Bench 2.065.4%77.3%Codex 大幅领先
SWE-Bench Pro新 SOTACodex 行业最高
OSWorld-64.7%Codex 电脑操作能力
Humanity's Last Exam最高分-Opus 多学科推理最强
ARC AGI 268.8%-Opus 新颖问题解决翻倍
MRCR v2(长上下文)76%-Opus 长上下文大幅提升
金融/法律实务+144 Elo基准Opus 在专业领域领先
LFG Bench(实测)9.25/107.5/10Opus 在复杂项目中更强

Every.to LFG Bench 实测详情(4 项任务)

  1. React 落地页 — 两者表现接近
  2. Three.js 3D 岛屿场景 — 两者表现接近
  3. Streamlit 数据面板 — Opus 略优
  4. Next.js 电商网站 — Opus 完成所有功能,Codex 遗漏了结账流程;差距明显拉大

四、早期用户口碑

4.1 Opus 4.6 用户评价

正面反馈:

  • Cursor 联合创始人 Michael Truell:「Opus 4.6 在最难的问题上表现卓越。它展现了更强的持久性、更强的代码审查能力,以及在长任务中坚持到底的能力——其他模型往往在这里放弃。」
  • 在 Windsurf 中体验显著优于 Opus 4.5,尤其在调试和理解陌生代码库等需要仔细探索的任务上。
  • 一次性生成完整物理引擎的案例令人印象深刻。
  • 企业级大型代码库和设计系统的处理能力有实质性提升。

负面/争议反馈:

  • 写作质量下降:用户报告编码能力提升但写作质量(尤其技术文档)退化。
  • Reddit 上出现大量"lobotomized(被做了前脑叶切除术)"和"nerfed(被削弱了)"的描述,数小时内获得大量关注。
  • 早期用户建议:编码用 4.6,写作留 4.5
  • 社区反应两极分化。

4.2 Codex 5.3 用户评价

正面反馈:

  • Matt Shumer(HyperWrite 创始人):「这是第一个让完全自主开发开始变得真正可行的编码模型。」
  • 用户报告代码库在模型处理后状态更好,更少 hacky 补丁和死代码。
  • 多 Agent 测试显示真正的协作改进,Agent 们自然分化出不同专长。
  • 在缺乏细节的提示下做出的判断「与我本人的决策惊人地相似」。

负面/争议反馈:

  • 速度较慢:运行时间通常需要数小时,显著慢于 Opus 4.5。
  • 状态可见性不足:叙述中断和任务复选框更新延迟降低了运行透明度。
  • 最终总结技术性过强,非专业人员需要"翻译"。
  • 网络安全风险引发争议,OpenAI 延迟了完整的开发者访问权限。
  • 不太适合 prompt 设计和 Agent 架构设计等创意性工作。

五、选型建议(来自 Every.to 等多方评测总结)

场景推荐模型原因
复杂/开放性编程问题Opus 4.6更高上限、更强探索能力
长时间自主编码任务Codex 5.3可靠性更强、自主运行不退化
大型代码库理解Opus 4.61M 上下文窗口优势
日常稳定编码Codex 5.3输出更可预测、更少意外
多学科推理/金融法律Opus 4.6专业领域 Elo 评分更高
需要像人一样操作电脑Codex 5.3OSWorld 64.7% 领先
写作/文档生成Opus 4.5(而非 4.6)4.6 写作质量有争议性退化
快速原型/样式迭代Opus 4.6速度更快、更有创意

六、行业观察

  • Every.to 的结论:两个模型正在趋同——Opus 4.6 获得了 Codex 系列的精确风格,而 Codex 5.3 则吸收了 Opus 的温度、速度和主动性。
  • Simon Willison 将此称为 AI 编码领域的"大趋同"时刻。
  • VentureBeat 称此为"AI 编码战争升温"。
  • 36氪报道标题:「ChatGPT 和 Claude 同时重大更新——无法掌握 AI 的工人将被淘汰」。

完整来源:www.tonyisstark.com/5394.html