Claude Opus 4.6 vs GPT-5.3-Codex 同日发布深度整理

2026-02-06 362 阅读7分钟

整理日期：2026-02-06 | 发布日期：2026-02-05 Anthropic 在 2 月 5 日下午 6:40 发布 Opus 4.6，OpenAI 仅 20 分钟后发布 GPT-5.3-Codex，堪称 AI 编程领域的"神仙打架"。

一、Claude Opus 4.6 核心特点

1.1 关键升级

特性	Opus 4.5	Opus 4.6
上下文窗口	200K tokens	1M tokens（beta，约 75 万字 / 1500 页）
Agent 模式	单 Agent 串行	Agent Teams（多 Agent 并行协作）
ARC AGI 2	37.6%	68.8% （近乎翻倍）
MRCR v2（长上下文）	18.5%	76%
自适应思维	无	根据任务复杂度自动调整推理深度

1.2 核心亮点

Agent Teams（智能体团队） ：最重大的新功能。多个 Agent 可以拆分大型任务，各自负责一部分并直接协调，而非单个 Agent 串行处理。在 Claude Code 中尤为显著。
1M 上下文窗口（beta） ：首个支持百万 token 的 Opus 模型，可以在一次任务中处理整个代码库、大量文档或内部数据。
PowerPoint 集成：研究预览中直接集成到 Microsoft PowerPoint，可读取现有幻灯片的布局、字体和模板，生成或编辑幻灯片并保留设计元素。
安全漏洞发现：发布数小时内，Opus 4.6 在开源代码中发现了 500+ 个此前未知的安全漏洞。
金融分析排名第一：以 1606 Elo 评分在金融分析任务中排名首位。
Humanity's Last Exam 最高分：在这项复杂多学科推理测试中领先所有前沿模型。

1.3 演示案例

一次生成完整物理引擎：在测试中一次性（one-shot）生成了一个完整可用的物理引擎，处理大范围多模块任务。
幻灯片自动生成：将电子表格数据直接转化为专业演示文稿，保持设计一致性。
开源代码安全审计：自动扫描并发现数百个安全漏洞。

1.4 可用性

已在 claude.ai、API、以及所有主要云平台上线
已集成至 GitHub Copilot
已集成至 Google Cloud Vertex AI

1.5 定价

API 定价与前代一致（具体价格未在公告中明确更新）

二、GPT-5.3-Codex 核心特点

2.1 关键升级

特性	GPT-5.2-Codex	GPT-5.3-Codex
速度	基准	快 25%
Terminal-Bench 2.0	64.0%	77.3%
OSWorld	38.2%	64.7%
SWE-Bench Pro	SOTA	新 SOTA（行业最高）
自我参与构建	无	首个参与自身构建的模型

2.2 核心亮点

自我构建（Self-Built） ：GPT-5.3-Codex 是首个在自身构建过程中发挥关键作用的模型——早期版本被用于调试训练、管理部署、诊断测试结果和评估。
全自主开发：首个能"启动后离开，回来时看到可运行软件"的编码模型。有记录的自主运行超过 8 小时不退化。
端到端开发闭环：独立完成编码、测试、部署、日志审查、迭代修复的完整开发生命周期。
类人判断力：在提示缺乏细节时，做出的假设"与人类开发者惊人地相似"。
实时协作交互：工作过程中频繁更新进展，用户可实时提问、讨论方案、引导方向。
代码质量提升：产出更干净的架构，更少的临时补丁和隐蔽 bug。
像人一样使用电脑：OSWorld 64.7% 的成绩意味着它能像人一样操作计算机完成任务。

2.3 演示案例

8 小时自主编码：在无人干预下持续运行超 8 小时，交付完整可运行软件。
跨仓库工作：无缝处理 Railway CLI 部署和跨代码仓库的协作任务。
多 Agent 协作：多个 Agent 自然分工、专注各自工作流，展现协作能力提升。

2.4 可用性

面向 ChatGPT 付费用户，通过 Codex App、CLI、IDE 扩展和 Web 界面提供
开发者完整访问权限因安全考量延迟开放

2.5 安全警告

这是 OpenAI 首个被标记为网络安全领域"High"能力的模型，触发了 Preparedness Framework 的相关安全措施。
Fortune 报道指出其引发了"前所未有的网络安全风险"。
OpenAI 以异常严格的控制措施推出此模型。

三、正面交锋：Benchmark 对比

基准测试	Opus 4.6	Codex 5.3	说明
Terminal-Bench 2.0	65.4%	77.3%	Codex 大幅领先
SWE-Bench Pro	强	新 SOTA	Codex 行业最高
OSWorld	-	64.7%	Codex 电脑操作能力
Humanity's Last Exam	最高分	-	Opus 多学科推理最强
ARC AGI 2	68.8%	-	Opus 新颖问题解决翻倍
MRCR v2（长上下文）	76%	-	Opus 长上下文大幅提升
金融/法律实务	+144 Elo	基准	Opus 在专业领域领先
LFG Bench（实测）	9.25/10	7.5/10	Opus 在复杂项目中更强

Every.to LFG Bench 实测详情（4 项任务）

React 落地页 — 两者表现接近
Three.js 3D 岛屿场景 — 两者表现接近
Streamlit 数据面板 — Opus 略优
Next.js 电商网站 — Opus 完成所有功能，Codex 遗漏了结账流程；差距明显拉大

四、早期用户口碑

4.1 Opus 4.6 用户评价

正面反馈：

Cursor 联合创始人 Michael Truell：「Opus 4.6 在最难的问题上表现卓越。它展现了更强的持久性、更强的代码审查能力，以及在长任务中坚持到底的能力——其他模型往往在这里放弃。」
在 Windsurf 中体验显著优于 Opus 4.5，尤其在调试和理解陌生代码库等需要仔细探索的任务上。
一次性生成完整物理引擎的案例令人印象深刻。
企业级大型代码库和设计系统的处理能力有实质性提升。

负面/争议反馈：

写作质量下降：用户报告编码能力提升但写作质量（尤其技术文档）退化。
Reddit 上出现大量"lobotomized（被做了前脑叶切除术）"和"nerfed（被削弱了）"的描述，数小时内获得大量关注。
早期用户建议：编码用 4.6，写作留 4.5。
社区反应两极分化。

4.2 Codex 5.3 用户评价

正面反馈：

Matt Shumer（HyperWrite 创始人）：「这是第一个让完全自主开发开始变得真正可行的编码模型。」
用户报告代码库在模型处理后状态更好，更少 hacky 补丁和死代码。
多 Agent 测试显示真正的协作改进，Agent 们自然分化出不同专长。
在缺乏细节的提示下做出的判断「与我本人的决策惊人地相似」。

负面/争议反馈：

速度较慢：运行时间通常需要数小时，显著慢于 Opus 4.5。
状态可见性不足：叙述中断和任务复选框更新延迟降低了运行透明度。
最终总结技术性过强，非专业人员需要"翻译"。
网络安全风险引发争议，OpenAI 延迟了完整的开发者访问权限。
不太适合 prompt 设计和 Agent 架构设计等创意性工作。

五、选型建议（来自 Every.to 等多方评测总结）

场景	推荐模型	原因
复杂/开放性编程问题	Opus 4.6	更高上限、更强探索能力
长时间自主编码任务	Codex 5.3	可靠性更强、自主运行不退化
大型代码库理解	Opus 4.6	1M 上下文窗口优势
日常稳定编码	Codex 5.3	输出更可预测、更少意外
多学科推理/金融法律	Opus 4.6	专业领域 Elo 评分更高
需要像人一样操作电脑	Codex 5.3	OSWorld 64.7% 领先
写作/文档生成	Opus 4.5（而非 4.6）	4.6 写作质量有争议性退化
快速原型/样式迭代	Opus 4.6	速度更快、更有创意

六、行业观察

Every.to 的结论：两个模型正在趋同——Opus 4.6 获得了 Codex 系列的精确风格，而 Codex 5.3 则吸收了 Opus 的温度、速度和主动性。
Simon Willison 将此称为 AI 编码领域的"大趋同"时刻。
VentureBeat 称此为"AI 编码战争升温"。
36氪报道标题：「ChatGPT 和 Claude 同时重大更新——无法掌握 AI 的工人将被淘汰」。

完整来源：www.tonyisstark.com/5394.html