Claude Opus 4.6 vs GPT-5.3-Codex，主要更新了什么？有哪些不同？如何使用呢？快过年了，最近

快过年了，最近国内AI老热闹了，元宝送红包，千问送奶茶，火药味十足，运营更是一套一套的，再看看国外，人家直接双双上模型，给新年打了一手双响炮。

Anthropic 刚把 Claude Opus 4.6 端上来， OpenAI 转头就甩出 GPT-5.3-Codex，而且 Codex 不是“PPT 发布”，在 App、CLI、IDE 插件里已经能直接用。

更关键的是，这两次更新都不是那种

“参数 +1%，大家散了吧”

而是路线非常清晰的强化：

Claude 继续往「通用智能、长上下文、复杂思考」走
Codex 则彻底站在「代码、工程、智能体执行力」这一边

如果你平时：

要写代码
要写文档
要做分析
或者已经在用 Agent 搭工作流

那这次更新，大概率会影响你接下来怎么用模型。

所以问题来了： Claude Opus 4.6 和 GPT-5.3-Codex，到底各自升级了什么？又有什么本质不同？

以下均为官方数据

一、Claude Opus 4.6

如果用一句话形容 Claude Opus 4.6： 它不是变得更激进了，而是更稳了。

长上下文，终于拉到 Opus 该有的位置

这次 Anthropic 做了一件很关键的事： 第一次把 Opus 系列推到了 100 万 token 上下文（测试版）。

常规可用：200K token
测试版：100 万 token
最大输出：128K token（相比上一代 64K 翻倍）

这在很多场景下意味着什么？

不是“我可以塞更多废话”，而是：

一整个代码仓库
一整份研究资料
多轮、长时间不间断的对话

可以一次性放进模型的工作记忆里。

在 MRCR v2 八针 1M（大海捞针）测试中，Opus 4.6 比 Sonnet 4.5 整整高出了 57 分

这个提升非常直观地体现在：

你不需要频繁帮它“回忆上下文”。

自适应思考，开始学会“该不该多想”

Opus 4.6 这次引入了 Adaptive Thinking（自适应思考）。

简单说就是：

简单问题 → 不强行长推理
复杂问题 → 自动加深思考
高级用户 → 可以把 effort 拉到 max

这是一个非常 Claude 风格的更新。它不追求“每次都想得很复杂”，而是在合适的时候，认真想一想。

长对话不崩，上下文自动压缩

还有一个很容易被忽略，但实际非常好用的功能： 上下文压缩（beta）。

当对话或 Agent 任务快要打到上下文上限时，Claude 会自动把早期内容压缩成摘要，再用摘要继续对话。

结果就是： 你可以把对话拉得非常长，但模型依然“记得发生过什么”。

Claude in PowerPoint

本次更新Claude也集成到了PowerPoint侧边栏中，让它在创建新内容之前读取现有的布局、字体和母版。

Claude可以根据客户模板构建演示文稿、对现有幻灯片进行针对性编辑。

你会明显感觉到： Claude Opus 4.6 更像一个“不会情绪化输出的同事”。

价格方面

在价格方面，API价格保持不变，还是＄5/$25每百万token（输入/输出）。

如果是超过20万token的上下文，这里会有额外定价，是 $10/$ 37.50每百万token。

适合什么人用？

如果你主要在做：

长文写作
产品方案、研究分析
多轮复杂对话
对表达准确性要求很高的任务

那 Claude Opus 4.6 非常对路。

一句话总结：

Claude Opus 4.6 更像一个耐心、克制、逻辑感很强的合作者。

二、GPT-5.3-Codex：这是给程序员准备的版本

和 Claude 的“稳”不同， GPT-5.3-Codex 的气质只有一个字：干。

不只是写代码，而是理解“工程”

GPT-5.3-Codex 融合了：

GPT-5.2-Codex 的编码能力
GPT-5.2 的推理能力和专业知识

结果是一个非常明确的变化：

以前：能写函数
现在：开始理解项目结构、多文件关系、真实工作流

再加上 整体推理速度提升 25% ，Codex 已经很适合被长期放在 IDE 或 CLI 里“盯活”。

OSWorld-Verified：一个非常夸张的指标

GPT-5.3-Codex 有一个指标高得有点离谱： OSWorld-Verified（视觉桌面操作）

简单说，就是让 AI：

看屏幕截图
操作真实的电脑界面
完成桌面级任务

成绩是：

人类基准：72%
GPT-5.2-Codex：38.2%
GPT-5.2：37.9%
GPT-5.3-Codex：64.7%

这说明一件事： Codex 已经不只是“写代码”，而是开始“动手做事”。

真实工程评测依然强

在目前最接近程序员真实工作方式的评测之一的Terminal-Bench 2.0测试（终端编程，在真实终端环境里完成编程任务）中，两家唯一可正面对比的指标上：

GPT-5.3-Codex 比 Claude Opus 4.6 高 12 分

而在GPT其他版本模型下，GPT-5.3-Codex 相比

相比 GPT-5.2-Codex，高了13.3 个点
相比通用 GPT-5.2，高了15.1 个点

在纯工程场景下，Codex 的优势非常清晰！！！代码方面直接碾压其他模型

Codex 现在更适合做什么？

如果你的痛点是：

日常开发节奏太慢
旧代码难读、难改
想快速搭 demo / PoC
学新语言或新框架

那 GPT-5.3-Codex 的目标很明确：

减少你真正敲代码的时间

三、差异一览

这里不站队，只说事实。

定位
- Claude：通用智能、复杂思考
- Codex：代码、工程、智能体执行
风格
- Claude：克制、严谨、稳定
- Codex：高效、直接、行动派
输出重点
- Claude：解释、分析、结构化思考
- Codex：可执行代码、工具调用、任务完成
适合人群
- Claude：内容、产品、研究、分析
- Codex：工程、开发、自动化

结论很简单： 不是谁更强，而是谁更适合你的场景。

四、普通用户该怎么用？

最简单的选择法

主要写代码 → GPT-5.3-Codex
主要写方案 / 长文 / 分析 → Claude Opus 4.6
两种都干 → 分工协作

一个很实用的“组合拳”

很多人已经在这么用：

用 Claude Opus 4.6
- 梳理需求
- 写设计说明
- 明确约束条件
用 GPT-5.3-Codex
- 实现代码
- 修改多文件
- Debug、重构
再回到 Claude
- 写文档
- 做总结
- 给出可读解释

这套流程，非常容易提升整体效率。

如何使用到它们呢？

Claude Opus 4.6、GPT-5.3-Codex这些都可以通过升级原有账号的形式进行使用到

可以前往我们的自助代充导航网站：gptclaude.top

(复制到浏览器打开)

目前 Claude Code 更新最新版本可以直接使用到Opus 4.6，下面那个1M context是更长的上下文，但这也代表了更多的消耗。

而 GPT-5.3-Codex，目前还没有API，不过在app，CLI，IDE插件and网页版都能用了，有小伙伴反馈说更新后没有看到，如果没有发现5.3-codex的可以重新登录一下获取模型，或者手动修改配置文件config.toml，像这样

如果是vscode插件的话，更新重启之后就可以看到啦~

如果你只用于这些编程模型，不是很想升级的话，这里推荐我自己也在用的中转站，可以使用到Claude code、Codex、Gemini，一份套餐可以享受到三大顶尖编程工具协同高效配合，感兴趣的可以看一下往期文章👇

教你在国内用一个套餐同时体验到Claude Code+Codex两大AI编程助手

最后有话说

这次模型更新给人的一个明显感觉是：

大模型的竞争，正在从“参数、跑分”转向细节、体验和工作流适配。

你不一定需要“最强的模型”，而是需要一个更适合你干活的模型。

最近感觉各厂的模型更新都没有像之前一样频繁开发布会了，仿佛模型更新已经成为了一种日常迭代，都开始卷更全面的Agent了。

最后欢迎在评论区聊聊你的使用场景，你会更倾向于把模型放在哪些场景上呢？