Opus 4.7 上线:新模型一发布就想"辞职研究"?先用四道题测完再决定

0 阅读6分钟

模型又迭代了。这次 Anthropic 把 Claude Opus 4.7 推到全量可用,社交圈里很容易看到两种极端:一种是“榜单赢了,默认模型必须换”;另一种是“都是营销,懒得动”。说实话,这两种都偏了。你真正要关心的,通常不是谁在某张表上多赢了几分,而是你的手边那几条真实任务,在新旧模型上到底谁更稳、谁更省时间、谁更不容易在关键一步翻车。

下面这篇:不冒充替你跑过一轮私密评测(那得你自己在工位上试),只把官宣能核对的事实说清楚,再给你一套谁都能照抄的自测顺序。要是你真想认真测,网上那句夸张玩笑怎么说来着——“恨不得辞职在家研究怎么写代码”——用在心情上挺贴切,用在行动上,还是换成“今晚加一小会儿班,把基准题跑完”更靠谱。

一、先读官宣:和程序员直接相关的不是“最强”,而是这几条硬变化

把新闻读薄一点,你会看到 Opus 4.7 至少在四个方向上,和“每天写代码、改需求、出材料”的人是贴肉的。

第一是工程向能力。Anthropic 在发布页里把 advanced software engineering 放在很靠前的位置,语气也很直白:更难的那类编码任务,用户反馈里开始出现“更敢把最棘手的活交出去”的叙述。这不是让你迷信,而是提醒你:如果你平时卡在复杂重构、跨文件推理、长链路 bug 上,这次迭代值得占用你一次认真的对照实验。

第二是视觉与专业交付。发布页写得很具体:图像长边可到 2576 像素、大约 3.75 megapixel,并点名密集截图、复杂图表、需要“像素级参照”的工作。翻译一下:UI 评审截图、架构图、表格照片、PPT 里抠细节——这类活,如果以前经常因为“看不清、数不对、漏条件”而返工,这一条比抽象的“多模态更强”更有用。

第三是指令遵循变强之后的副作用。官方早期测试笔记里有一句很关键:模型更字面地执行指令,给旧模型写的提示词,可能在新模型上产出“意外结果”。这不是唱反调,是提醒一件工程现实:换模型≈要预算一点时间做 prompt 与 Skill 的回归,别指望零成本平移。

第四是产品与 API 侧的配套。同文还提到 xhigh 这一档 effort、API 的 task budgets(公测)、以及 Claude Code 里的 /ultrareview 之类的新命令。它们共同指向一件事:厂商在帮你调“推理深度、时延、花费”的旋钮。默认模型要不要换,最后往往会被这些旋钮放大成“账面上的差异”。

另外还有一句对决策很友好、但常被忽略的话:定价与 Opus 4.6 相同(输入与输出的美元单价在发布页写明)。这意味着,如果你的瓶颈是“效果”,而不是“价格门槛”,对照实验的成本结构不至于因为涨价而变形——当然,token 消耗曲线仍可能变,下文会提迁移注意事项。

二、为什么“默认模型”不该由排行榜替你一键决定

排行榜、对比表、社交媒体截图,最大的问题是:它们测的,经常不是你正在测的。

Anthropic 自己在脚注里写得很克制:例如 SWE-bench Multimodal 用的是内部实现,与公开榜单分数不能直接横向比较。这句话值得你多看一眼——不是说谁不诚实,而是在提醒:评测 harness 差一点点,分数叙事就会换一副面孔。 你把“公开榜第一名”直接映射成“我仓库里一定第一名”,跨度太大。

更现实的是分布偏移。你的代码库风格、历史包袱、评审口径、甚至你们团队对“能合并”的定义,都和基准题里的世界不一样。于是会出现一种尴尬:模型 A 在榜单上更好看,但在你那条“从需求到可合并 PR”的链路上,模型 B 更少犯你讨厌的那类错。 这类结论,只有你自己的基准题能给你。

还有一层是组织与合规。国内团队常见的变量包括:数据出境与采购路径、云厂商托管区域、账号与开票、以及某些行业对第三方模型的限制。它们不会出现在任何 benchmark 里,但会决定你能不能稳定地把“更强的模型”接到 CI、接到 IDE、接到工单系统。若这些变量没对齐,讨论默认模型就像在讨论“哪辆跑车更快”,而你小区大门还没放行。

三、给你一套可复制的自测流程:比转发对比图更像成年人

如果你今晚只想做一件事,我建议别改默认模型,先做基准题封板。做法很朴素:挑三到五个你过去两周真实痛过的任务,把它们写成可重复的输入(同样的仓库快照、同样的需求描述、同样的截图),然后在新旧模型上各跑一遍,只记录三类结果:能不能一次做对、哪里需要人兜底、以及时间与 token 体感。这比抽象形容词可靠得多。

题型上,你可以直接偷这篇选题里给的框架,按你的工种改一改:接口重构、跨模块定位 bug、根据 UI 截图改交互、把散材料整理成可汇报结构、以及一份需要“像人一样排版”的周报或幻灯片骨架。关键是固定任务,否则你会把“我这次提示词写得更好”误当成“模型更强”。

换模型后务必加一轮提示词回归。官方已经提示“旧提示可能意外”,这不是甩锅,是让你把团队里那几条高频模板、几个常用 Skill、以及你 IDE 插件里保存的 system 片段,当作小型回归集。最近中文圈里也有人用戏谑的方式讨论把经验沉淀成可复用 Skill——本质都是一件事:模型升级了,你的“组织记忆”也要跟着升级,不然就会出现“新脑子配旧说明书”的错位感。

迁移上,发布页也提醒了 tokenizer 更新与 高分辨率吃 token 的现实:同样的图,更高保真往往意味着更多花费。你可以把它纳入实验记录:别只比“好不好”,还要比“同样质量下贵不贵”。API 侧若启用 task budgets,把它当作实验变量写进笔记,而不是第一次上线就在生产里硬怼。

最后补一段中文语境落地:同样的模型,走官网、走云厂商托管、走企业采购合同,体验与合规约束可能完全不同;IDE 插件版本、代理与网络、以及团队代码审查规则,也会改变“能不能用得爽”。这些不属于玄学,属于你把模型从新闻标题拽回工位时必须支付的工程摩擦

Opus 4.7 值得认真看,但“默认模型”这件事,应该用你自己的基准题投票,而不是用别人的截图替你投票。你把三道题封板,再决定切不切,通常比“我先换了再说”更省时间。