用了一天 Claude Opus 4.7,聊几点真实感受

0 阅读1分钟

昨天半夜刷到 Anthropic 发 Opus 4.7 的推送,差点从床上爬起来开电脑。今天白天认真跑了一天项目,说说几点体感。

Claude Opus 4.7

为什么是 4.7 而不是 5.0

春节前后都在传 Claude 5 要来,结果憋出来个 4.7。看完公告就明白了——A 社手里还捂着张更猛的牌叫 Mythos Preview,SWE-bench Pro 能干到 77.8%,但因为网络安全能力太强,只走 Project Glasswing 给苹果谷歌微软这种平台合作方。

所以 4.7 本质是个"阉割安全版的 Mythos"。底牌还没打,先放个中间档打市场。

编码:难题上的提升很明显

简单的增删改查,4.7 和 4.6 区别不大。但只要任务一复杂——跨文件改动、需要先理解上下文再动手——4.7 稳得多。

Opus 4.7 基准测试对比

Cursor 官方数据:自家 CursorBench 上 4.7 跨过 70%,4.6 只有 58%。Notion 那边更直接——多步工作流比 4.6 好 14%,token 用得更少,工具调用错误率只有三分之一。更准、更省、更稳同时出现,挺罕见的。

今天最明显的改善是它开始自己验证输出了。以前改完就说"好了",现在会先想怎么检查再报告。

视觉:这次是真的跳跃

最让我意外的其实是视觉。图片分辨率上限从 1.15 兆像素直接拉到 3.75 兆像素,差不多三倍。

视觉能力基准

视觉推理分数从 69.1% 干到 82.1%,涨了 13 个点——而 4.6 相对 4.5 这项只涨了 3.3%。这是爆发式增长,不是常规迭代。扔一张密密麻麻的架构图过去,4.6 偶尔会漏箭头方向,4.7 读得非常准。XBOW 团队视觉锐度基准更夸张:从 54.5% 直接跳到 98.5%

一个容易踩的坑

价格和 4.6 一样,5/25 美金每百万 token,看着美滋滋。但 4.7 换了新 tokenizer,同样的文本会被切成更多 token,比率 1.0~1.35 倍,中文和代码场景受影响更大。加上高 effort 档位下它想得更多,输出 token 也会涨。净效应官方说是正向的,但 API 用户切过去前最好在真实流量上跑个 A/B。

该不该升级

用 API 或 Claude Code 的,升就完事了,价格没变、难题表现更好。唯一要注意的是如果代码里设置了 temperaturetop_ptop_k,这些在 4.7 上会直接 400,得切到 adaptive thinking。


说实话,4.7 相对 4.6 的提升,体感没有 4.6 相对 4.5 那么惊艳。这是模型迭代到后期的常态——分数已经够高了,再涨一个点意味着解决更多边角案例。我更期待的其实是 Mythos 什么时候正式开放。Opus 4.7 是个扎实的过渡,不惊喜,但够用、够稳、够划算。