今天凌晨,AI圈炸了。
Anthropic和OpenAI在同一天发布了各自的王牌模型。 Claude Opus 4.6 vs GPT-5.3-Codex。 正面硬刚,火药味十足。
老金我熬夜测了两个模型,今天给你们做个全面对比。
Claude Code和Codex Cli中均已上线。
记得更新
先说结论:各有所长
Claude Opus 4.6:100万token上下文、Agent Teams、长上下文能力碾压 GPT-5.3-Codex:25%更快、自我构建、超越编码
两家都说自己是"最强"。 但"最强"这个词,得看你用在哪。
Claude Opus 4.6:100万token上下文
这是Opus 4.6最炸裂的升级。 之前Opus 4.5的上下文是20万token。 现在直接翻了5倍,到100万token。
老金我给你算笔账: 100万token大概等于75万个英文单词。 换成中文,差不多是50万字。 一本《三体》全集才40万字。
这意味着什么?
你可以把整个项目的代码库一次性喂给它。 不用再担心"上下文不够用"的问题。 Claude能同时看到你项目里的所有文件,理解整体架构。
GPT-5.3-Codex:AI自己造AI
再来看个GPT-5.3-Codex最让人震惊的地方。
OpenAI官方说法: "GPT-5.3-Codex是我们第一个帮助构建自己的模型。"
什么意思? Codex团队用Codex来:
- 调试自己的训练过程
- 管理自己的部署
- 诊断测试结果和评估
老金我不知道该兴奋还是该害怕。 AI开始自己造AI了。 这个反馈循环一旦跑起来,进化速度会越来越快。
长上下文能力:Claude完胜
这是Opus 4.6最硬核的技术突破。
什么是Context Rot? 就是AI模型在处理长文本时,性能会随着上下文变长而下降。 简单说:喂的内容越多,AI越容易"犯迷糊"。
Anthropic给出了一组数据: 在MRCR v2测试中(专门测AI在海量文本里找信息的能力): Opus 4.6得分76%。 Sonnet 4.5只有18.5%。
76% vs 18.5%,这不是量变,是质变。
老金我翻译一下:以前你给AI喂10万字的文档,它可能只能记住开头和结尾。 现在Opus 4.6能真正"读懂"整个文档,不会漏掉中间的关键信息。
速度对比:GPT-5.3更快
OpenAI说GPT-5.3-Codex比5.2版本快了25%。
这个提升很实在。 写代码的时候,等待时间少了,心流状态更容易保持。
Claude Opus 4.6的速度和4.5差不多。 考虑到上下文翻了5倍,能保持同样的速度已经不错了。
Agent Teams vs 自我构建
Claude的Agent Teams: 让多个Claude同时工作,各自负责不同的任务,然后自动协调。 一个负责前端,一个负责后端,一个负责测试,一个负责文档。 四个Claude同时开工,效率翻倍。
启用方式: CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
GPT-5.3的自我构建: AI参与自己的开发过程。 这意味着OpenAI的迭代速度会越来越快。 今天的5.3帮助构建明天的5.4,5.4帮助构建5.5...
两个方向都很有意思。 Claude走的是"团队协作"路线。 OpenAI走的是"自我进化"路线。
它还放了拿Codex 5.3做的两款游戏,你别说,你还真别说。 让处于游戏研发的我,背后发起一丝丝凉意,太快了,进步太快了。
赛车游戏,包含不同的赛车手,八张地图,甚至还有可以用空格键使用的道具。
潜水游戏,你将探索各种珊瑚礁,收集所有鱼类以完成你的鱼类图鉴,同时还要管理氧气、压力和应对各种危险。
如果对你有帮助,记得关注一波~
跑分对比
Claude Opus 4.6:
-
Terminal-Bench 2.0:最高分
-
GDPval-AA:比GPT-5.2高144 Elo点
-
Humanity's Last Exam:第一
-
BrowseComp:第一
GPT-5.3-Codex:
-
自我构建能力:首个参与自身开发的AI模型
-
25%速度提升(相比GPT-5.2)
-
被标记为"高能力"网络安全任务
-
具体跑分数据尚未公布
两家都说自己是第一。 跑分这东西,看看就好。 实际用起来怎么样,还得自己测。
超越编码:两家都在扩展边界
Claude的扩展:
- Claude in Excel:直接在Excel里调用Claude
- Claude in PowerPoint:直接在PPT里做演示文稿
- 128k输出tokens:一次性生成更长的内容
GPT-5.3的扩展: OpenAI说:"GPT-5.3-Codex从一个能写代码和审查代码的Agent,变成了一个几乎能做开发者和专业人士在电脑上能做的任何事情的Agent。"
包括做幻灯片、电子表格等。
两家都在从"编程工具"向"通用工作助手"进化。
定价对比
Claude Opus 4.6:
- 输入:5美元/百万token
- 输出:25美元/百万token
- 超过20万token的长上下文:10美元/37.5美元
GPT-5.3-Codex:
- 目前只在付费ChatGPT计划中可用
- API访问计划中,预计会有25%更快的交互
两家定价策略不同。 Claude走API路线,按token收费。 OpenAI走订阅路线,包含在ChatGPT Plus/Pro里。
市场格局
Anthropic:
- 44%的企业在生产环境中使用
- Claude Code 11月突破10亿美元收入
- 正在谈200亿美元融资,估值3500亿美元
OpenAI:
- 三天前刚发布Codex桌面应用
- GPT-5.3-Codex是对Claude Code的直接回应
- 仍然是市场领导者
两家现在是贴身肉搏的状态。 OpenAI出一招,Anthropic就接一招。 对我们用户来说,这是好事——竞争越激烈,产品越好用。
老金我的选择建议
选Claude Opus 4.6如果你:
- 需要处理大型代码库(100万token上下文)
- 需要长上下文能力(不会"忘记"前面的内容)
- 想用Agent Teams做并行开发
- 需要在Excel/PowerPoint里用AI
选GPT-5.3-Codex如果你:
- 已经是ChatGPT Plus/Pro用户
- 需要网络安全相关的高能力任务
- 喜欢OpenAI的生态系统
老金我的实际做法:两个都用。
不同任务用不同工具。 大型项目、需要长上下文的用Claude。 快速迭代、简单任务用GPT。
最后说一句
2026年2月5日,会被记住。
这一天,两大AI巨头同时发布了各自的王牌模型。 AI编程工具的竞争进入了白热化阶段。
Claude Code、Cursor、Windsurf、OpenAI Codex,各家都在拼命卷。 对我们用户来说,这是最好的时代。
你们觉得呢?Claude还是GPT?
每次我都想提醒一下,这不是凡尔赛,是希望有想法的人勇敢冲。 我不会代码,我英语也不好,但是我做出来了很多东西,在文末的开源知识库可见。 我真心希望能影响更多的人来尝试新的技巧,迎接新的时代。
谢谢你读我的文章。 如果觉得不错,随手点个赞、在看、转发三连吧🙂 如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。
开源知识库地址: tffyvtlai4.feishu.cn/wiki/OhQ8wq…