快过年了,最近国内AI老热闹了,元宝送红包,千问送奶茶,火药味十足,运营更是一套一套的,再看看国外,人家直接双双上模型,给新年打了一手双响炮。
Anthropic 刚把 Claude Opus 4.6 端上来, OpenAI 转头就甩出 GPT-5.3-Codex,而且 Codex 不是“PPT 发布”,在 App、CLI、IDE 插件里已经能直接用。
更关键的是,这两次更新都不是那种
“参数 +1%,大家散了吧”
而是路线非常清晰的强化:
-
Claude 继续往「通用智能、长上下文、复杂思考」走
-
Codex 则彻底站在「代码、工程、智能体执行力」这一边
如果你平时:
- 要写代码
- 要写文档
- 要做分析
- 或者已经在用 Agent 搭工作流
那这次更新,大概率会影响你接下来怎么用模型。
所以问题来了: Claude Opus 4.6 和 GPT-5.3-Codex,到底各自升级了什么?又有什么本质不同?
以下均为官方数据
一、Claude Opus 4.6
如果用一句话形容 Claude Opus 4.6: 它不是变得更激进了,而是更稳了。
长上下文,终于拉到 Opus 该有的位置
这次 Anthropic 做了一件很关键的事: 第一次把 Opus 系列推到了 100 万 token 上下文(测试版)。
- 常规可用:200K token
- 测试版:100 万 token
- 最大输出:128K token(相比上一代 64K 翻倍)
这在很多场景下意味着什么?
不是“我可以塞更多废话”, 而是:
- 一整个代码仓库
- 一整份研究资料
- 多轮、长时间不间断的对话
可以一次性放进模型的工作记忆里。
在 MRCR v2 八针 1M(大海捞针)测试中,Opus 4.6 比 Sonnet 4.5 整整高出了 57 分
这个提升非常直观地体现在:
你不需要频繁帮它“回忆上下文”。
自适应思考,开始学会“该不该多想”
Opus 4.6 这次引入了 Adaptive Thinking(自适应思考)。
简单说就是:
- 简单问题 → 不强行长推理
- 复杂问题 → 自动加深思考
- 高级用户 → 可以把 effort 拉到 max
这是一个非常 Claude 风格的更新。 它不追求“每次都想得很复杂”, 而是在合适的时候,认真想一想。
长对话不崩,上下文自动压缩
还有一个很容易被忽略,但实际非常好用的功能: 上下文压缩(beta)。
当对话或 Agent 任务快要打到上下文上限时,Claude 会自动把早期内容压缩成摘要,再用摘要继续对话。
结果就是: 你可以把对话拉得非常长,但模型依然“记得发生过什么”。
Claude in PowerPoint
本次更新Claude也集成到了PowerPoint侧边栏中,让它在创建新内容之前读取现有的布局、字体和母版。
Claude可以根据客户模板构建演示文稿、对现有幻灯片进行针对性编辑。
你会明显感觉到: Claude Opus 4.6 更像一个“不会情绪化输出的同事”。
价格方面
在价格方面,API价格保持不变,还是$5/$25每百万token(输入/输出)。
如果是超过20万token的上下文,这里会有额外定价,是37.50每百万token。
适合什么人用?
如果你主要在做:
- 长文写作
- 产品方案、研究分析
- 多轮复杂对话
- 对表达准确性要求很高的任务
那 Claude Opus 4.6 非常对路。
一句话总结:
Claude Opus 4.6 更像一个耐心、克制、逻辑感很强的合作者。
二、GPT-5.3-Codex:这是给程序员准备的版本
和 Claude 的“稳”不同, GPT-5.3-Codex 的气质只有一个字:干。
不只是写代码,而是理解“工程”
GPT-5.3-Codex 融合了:
- GPT-5.2-Codex 的编码能力
- GPT-5.2 的推理能力和专业知识
结果是一个非常明确的变化:
- 以前:能写函数
- 现在:开始理解项目结构、多文件关系、真实工作流
再加上 整体推理速度提升 25% ,Codex 已经很适合被长期放在 IDE 或 CLI 里“盯活”。
OSWorld-Verified:一个非常夸张的指标
GPT-5.3-Codex 有一个指标高得有点离谱: OSWorld-Verified(视觉桌面操作)
简单说,就是让 AI:
- 看屏幕截图
- 操作真实的电脑界面
- 完成桌面级任务
成绩是:
- 人类基准:72%
- GPT-5.2-Codex:38.2%
- GPT-5.2:37.9%
- GPT-5.3-Codex:64.7%
这说明一件事: Codex 已经不只是“写代码”,而是开始“动手做事”。
真实工程评测依然强
在目前最接近程序员真实工作方式的评测之一的Terminal-Bench 2.0测试(终端编程,在真实终端环境里完成编程任务)中,两家唯一可正面对比的指标上:
- GPT-5.3-Codex 比 Claude Opus 4.6 高 12 分
而在GPT其他版本模型下,GPT-5.3-Codex 相比
- 相比 GPT-5.2-Codex,高了13.3 个点
- 相比通用 GPT-5.2,高了15.1 个点
在纯工程场景下,Codex 的优势非常清晰!!!代码方面直接碾压其他模型
Codex 现在更适合做什么?
如果你的痛点是:
- 日常开发节奏太慢
- 旧代码难读、难改
- 想快速搭 demo / PoC
- 学新语言或新框架
那 GPT-5.3-Codex 的目标很明确:
减少你真正敲代码的时间
三、差异一览
这里不站队,只说事实。
-
定位
- Claude:通用智能、复杂思考
- Codex:代码、工程、智能体执行
-
风格
- Claude:克制、严谨、稳定
- Codex:高效、直接、行动派
-
输出重点
- Claude:解释、分析、结构化思考
- Codex:可执行代码、工具调用、任务完成
-
适合人群
- Claude:内容、产品、研究、分析
- Codex:工程、开发、自动化
结论很简单: 不是谁更强,而是谁更适合你的场景。
四、普通用户该怎么用?
最简单的选择法
- 主要写代码 → GPT-5.3-Codex
- 主要写方案 / 长文 / 分析 → Claude Opus 4.6
- 两种都干 → 分工协作
一个很实用的“组合拳”
很多人已经在这么用:
-
用 Claude Opus 4.6
- 梳理需求
- 写设计说明
- 明确约束条件
-
用 GPT-5.3-Codex
- 实现代码
- 修改多文件
- Debug、重构
-
再回到 Claude
- 写文档
- 做总结
- 给出可读解释
这套流程,非常容易提升整体效率。
如何使用到它们呢?
Claude Opus 4.6、GPT-5.3-Codex这些都可以通过升级原有账号的形式进行使用到
可以前往我们的自助代充导航网站:gptclaude.top
(复制到浏览器打开)
目前 Claude Code 更新最新版本可以直接使用到Opus 4.6,下面那个1M context是更长的上下文,但这也代表了更多的消耗。
而 GPT-5.3-Codex,目前还没有API,不过在app,CLI,IDE插件and网页版都能用了,有小伙伴反馈说更新后没有看到,如果没有发现5.3-codex的可以重新登录一下获取模型,或者手动修改配置文件config.toml,像这样
如果是vscode插件的话,更新重启之后就可以看到啦~
如果你只用于这些编程模型,不是很想升级的话,这里推荐我自己也在用的中转站,可以使用到Claude code、Codex、Gemini,一份套餐可以享受到三大顶尖编程工具协同高效配合,感兴趣的可以看一下往期文章👇
教你在国内用一个套餐同时体验到Claude Code+Codex两大AI编程助手
最后有话说
这次模型更新给人的一个明显感觉是:
大模型的竞争,正在从“参数、跑分”转向细节、体验和工作流适配。
你不一定需要“最强的模型”,而是需要一个更适合你干活的模型。
最近感觉各厂的模型更新都没有像之前一样频繁开发布会了,仿佛模型更新已经成为了一种日常迭代,都开始卷更全面的Agent了。
最后欢迎在评论区聊聊你的使用场景,你会更倾向于把模型放在哪些场景上呢?