Claude Opus 4.6 vs GPT-5.3-Codex,主要更新了什么?有哪些不同?如何使用呢?

0 阅读7分钟

快过年了,最近国内AI老热闹了,元宝送红包,千问送奶茶,火药味十足,运营更是一套一套的,再看看国外,人家直接双双上模型,给新年打了一手双响炮。

Anthropic 刚把 Claude Opus 4.6 端上来, OpenAI 转头就甩出 GPT-5.3-Codex,而且 Codex 不是“PPT 发布”,在 App、CLI、IDE 插件里已经能直接用。

更关键的是,这两次更新都不是那种

“参数 +1%,大家散了吧”

而是路线非常清晰的强化

  • Claude 继续往「通用智能、长上下文、复杂思考」走

  • Codex 则彻底站在「代码、工程、智能体执行力」这一边

如果你平时:

  • 要写代码
  • 要写文档
  • 要做分析
  • 或者已经在用 Agent 搭工作流

那这次更新,大概率会影响你接下来怎么用模型

所以问题来了: Claude Opus 4.6 和 GPT-5.3-Codex,到底各自升级了什么?又有什么本质不同?

以下均为官方数据

一、Claude Opus 4.6

如果用一句话形容 Claude Opus 4.6: 它不是变得更激进了,而是更稳了。

长上下文,终于拉到 Opus 该有的位置

这次 Anthropic 做了一件很关键的事: 第一次把 Opus 系列推到了 100 万 token 上下文(测试版)

  • 常规可用:200K token
  • 测试版:100 万 token
  • 最大输出:128K token(相比上一代 64K 翻倍)

这在很多场景下意味着什么?

不是“我可以塞更多废话”, 而是:

  • 一整个代码仓库
  • 一整份研究资料
  • 多轮、长时间不间断的对话

可以一次性放进模型的工作记忆里。

在 MRCR v2 八针 1M(大海捞针)测试中,Opus 4.6 比 Sonnet 4.5 整整高出了 57 分

这个提升非常直观地体现在:

你不需要频繁帮它“回忆上下文”。

自适应思考,开始学会“该不该多想”

Opus 4.6 这次引入了 Adaptive Thinking(自适应思考)

简单说就是:

  • 简单问题 → 不强行长推理
  • 复杂问题 → 自动加深思考
  • 高级用户 → 可以把 effort 拉到 max

这是一个非常 Claude 风格的更新。 它不追求“每次都想得很复杂”, 而是在合适的时候,认真想一想

长对话不崩,上下文自动压缩

还有一个很容易被忽略,但实际非常好用的功能: 上下文压缩(beta)

当对话或 Agent 任务快要打到上下文上限时,Claude 会自动把早期内容压缩成摘要,再用摘要继续对话。

结果就是: 你可以把对话拉得非常长,但模型依然“记得发生过什么”。

Claude in PowerPoint

本次更新Claude也集成到了PowerPoint侧边栏中,让它在创建新内容之前读取现有的布局、字体和母版。

Claude可以根据客户模板构建演示文稿、对现有幻灯片进行针对性编辑。

你会明显感觉到: Claude Opus 4.6 更像一个“不会情绪化输出的同事”。

价格方面

在价格方面,API价格保持不变,还是$5/$25每百万token(输入/输出)。

如果是超过20万token的上下文,这里会有额外定价,是10/10/37.50每百万token。

适合什么人用?

如果你主要在做:

  • 长文写作
  • 产品方案、研究分析
  • 多轮复杂对话
  • 对表达准确性要求很高的任务

那 Claude Opus 4.6 非常对路。

一句话总结:

Claude Opus 4.6 更像一个耐心、克制、逻辑感很强的合作者。

二、GPT-5.3-Codex:这是给程序员准备的版本

和 Claude 的“稳”不同, GPT-5.3-Codex 的气质只有一个字:干。

不只是写代码,而是理解“工程”

GPT-5.3-Codex 融合了:

  • GPT-5.2-Codex 的编码能力
  • GPT-5.2 的推理能力和专业知识

结果是一个非常明确的变化:

  • 以前:能写函数
  • 现在:开始理解项目结构、多文件关系、真实工作流

再加上 整体推理速度提升 25% ,Codex 已经很适合被长期放在 IDE 或 CLI 里“盯活”。

OSWorld-Verified:一个非常夸张的指标

GPT-5.3-Codex 有一个指标高得有点离谱: OSWorld-Verified(视觉桌面操作)

简单说,就是让 AI:

  • 看屏幕截图
  • 操作真实的电脑界面
  • 完成桌面级任务

成绩是:

  • 人类基准:72%
  • GPT-5.2-Codex:38.2%
  • GPT-5.2:37.9%
  • GPT-5.3-Codex:64.7%

这说明一件事: Codex 已经不只是“写代码”,而是开始“动手做事”。

真实工程评测依然强

目前最接近程序员真实工作方式的评测之一的Terminal-Bench 2.0测试(终端编程,在真实终端环境里完成编程任务)中,两家唯一可正面对比的指标上:

  • GPT-5.3-Codex 比 Claude Opus 4.6 高 12 分

而在GPT其他版本模型下,GPT-5.3-Codex 相比

  • 相比 GPT-5.2-Codex,高了13.3 个点
  • 相比通用 GPT-5.2,高了15.1 个点

在纯工程场景下,Codex 的优势非常清晰!!!代码方面直接碾压其他模型

Codex 现在更适合做什么?

如果你的痛点是:

  • 日常开发节奏太慢
  • 旧代码难读、难改
  • 想快速搭 demo / PoC
  • 学新语言或新框架

那 GPT-5.3-Codex 的目标很明确:

减少你真正敲代码的时间

三、差异一览

这里不站队,只说事实。

  • 定位

    • Claude:通用智能、复杂思考
    • Codex:代码、工程、智能体执行
  • 风格

    • Claude:克制、严谨、稳定
    • Codex:高效、直接、行动派
  • 输出重点

    • Claude:解释、分析、结构化思考
    • Codex:可执行代码、工具调用、任务完成
  • 适合人群

    • Claude:内容、产品、研究、分析
    • Codex:工程、开发、自动化

结论很简单: 不是谁更强,而是谁更适合你的场景。

四、普通用户该怎么用?

最简单的选择法

  • 主要写代码 → GPT-5.3-Codex
  • 主要写方案 / 长文 / 分析 → Claude Opus 4.6
  • 两种都干 → 分工协作

一个很实用的“组合拳”

很多人已经在这么用:

  1. Claude Opus 4.6

    • 梳理需求
    • 写设计说明
    • 明确约束条件
  2. GPT-5.3-Codex

    • 实现代码
    • 修改多文件
    • Debug、重构
  3. 再回到 Claude

    • 写文档
    • 做总结
    • 给出可读解释

这套流程,非常容易提升整体效率

如何使用到它们呢?

Claude Opus 4.6、GPT-5.3-Codex这些都可以通过升级原有账号的形式进行使用到

可以前往我们的自助代充导航网站:gptclaude.top

(复制到浏览器打开)

目前 Claude Code 更新最新版本可以直接使用到Opus 4.6,下面那个1M context是更长的上下文,但这也代表了更多的消耗。

GPT-5.3-Codex,目前还没有API,不过在app,CLI,IDE插件and网页版都能用了,有小伙伴反馈说更新后没有看到,如果没有发现5.3-codex的可以重新登录一下获取模型,或者手动修改配置文件config.toml,像这样

如果是vscode插件的话,更新重启之后就可以看到啦~

如果你只用于这些编程模型,不是很想升级的话,这里推荐我自己也在用的中转站,可以使用到Claude code、Codex、Gemini,一份套餐可以享受到三大顶尖编程工具协同高效配合,感兴趣的可以看一下往期文章👇

教你在国内用一个套餐同时体验到Claude Code+Codex两大AI编程助手

最后有话说

这次模型更新给人的一个明显感觉是:

大模型的竞争,正在从“参数、跑分”转向细节、体验和工作流适配

你不一定需要“最强的模型”,而是需要一个更适合你干活的模型

最近感觉各厂的模型更新都没有像之前一样频繁开发布会了,仿佛模型更新已经成为了一种日常迭代,都开始卷更全面的Agent了。

最后欢迎在评论区聊聊你的使用场景,你会更倾向于把模型放在哪些场景上呢?