用了一天 Claude Opus 4.7，聊几点真实感受昨天半夜刷到 Anthropic 发 Opus 4.7 的推送，

昨天半夜刷到 Anthropic 发 Opus 4.7 的推送，差点从床上爬起来开电脑。今天白天认真跑了一天项目，说说几点体感。

Claude Opus 4.7

为什么是 4.7 而不是 5.0

春节前后都在传 Claude 5 要来，结果憋出来个 4.7。看完公告就明白了——A 社手里还捂着张更猛的牌叫 Mythos Preview，SWE-bench Pro 能干到 77.8%，但因为网络安全能力太强，只走 Project Glasswing 给苹果谷歌微软这种平台合作方。

所以 4.7 本质是个"阉割安全版的 Mythos"。底牌还没打，先放个中间档打市场。

编码：难题上的提升很明显

简单的增删改查，4.7 和 4.6 区别不大。但只要任务一复杂——跨文件改动、需要先理解上下文再动手——4.7 稳得多。

Opus 4.7 基准测试对比

Cursor 官方数据：自家 CursorBench 上 4.7 跨过 70%，4.6 只有 58%。Notion 那边更直接——多步工作流比 4.6 好 14%，token 用得更少，工具调用错误率只有三分之一。更准、更省、更稳同时出现，挺罕见的。

今天最明显的改善是它开始自己验证输出了。以前改完就说"好了"，现在会先想怎么检查再报告。

视觉：这次是真的跳跃

最让我意外的其实是视觉。图片分辨率上限从 1.15 兆像素直接拉到 3.75 兆像素，差不多三倍。

视觉能力基准

视觉推理分数从 69.1% 干到 82.1%，涨了 13 个点——而 4.6 相对 4.5 这项只涨了 3.3%。这是爆发式增长，不是常规迭代。扔一张密密麻麻的架构图过去，4.6 偶尔会漏箭头方向，4.7 读得非常准。XBOW 团队视觉锐度基准更夸张：从 54.5% 直接跳到 98.5%。

一个容易踩的坑

价格和 4.6 一样，5/25 美金每百万 token，看着美滋滋。但 4.7 换了新 tokenizer，同样的文本会被切成更多 token，比率 1.0~1.35 倍，中文和代码场景受影响更大。加上高 effort 档位下它想得更多，输出 token 也会涨。净效应官方说是正向的，但 API 用户切过去前最好在真实流量上跑个 A/B。

该不该升级

用 API 或 Claude Code 的，升就完事了，价格没变、难题表现更好。唯一要注意的是如果代码里设置了 temperature、top_p、top_k，这些在 4.7 上会直接 400，得切到 adaptive thinking。

说实话，4.7 相对 4.6 的提升，体感没有 4.6 相对 4.5 那么惊艳。这是模型迭代到后期的常态——分数已经够高了，再涨一个点意味着解决更多边角案例。我更期待的其实是 Mythos 什么时候正式开放。Opus 4.7 是个扎实的过渡，不惊喜，但够用、够稳、够划算。