视觉能力提升3倍、编程能力碾压GPT-5.4,却被用户吐槽"更费token、爱道歉、会撒谎"——Opus 4.7的真实面貌,比跑分更复杂。
深夜收到的推送
4月17日深夜,我收到这么一条消息:
"Claude Opus 4.7已全面可用,编程能力、视觉理解大幅提升。"
作为一个深度使用Claude的用户,我第一时间打开并准备尝试。
然后,我给同样在用Claude的朋友发了条消息:"新版本来了,要不要试试?"
朋友的回复很直接:"别试,巨难用,各种道歉,还会撒谎。"
这让我很好奇——官方吹得那么厉害,实际体验到底如何?
01
先说说它的好
客观讲,Opus 4.7在一些方面确实有了明显提升。
视觉能力:终于能看清细节了
以前用4.6处理图片时,我最头疼的就是它经常看不清楚表格里的数字。有次我发了一张车辆参数表的截图,结果它把"1.5T"识别成了"1.57",害得我重新核对了半天。
4.7这次直接把图片分辨率上限拉到了3.75兆像素,是上一代的3倍多。我用同样的表格图测试,几乎没有识别错的数字,连小数点和单位都看得很清楚。
这对经常需要处理截图、图表的人来说,确实是个实用的升级。
编程能力:碾压GPT-5.4
在SWE-bench Pro编程基准测试中,Opus 4.7的成绩从53.4%跳升至64.3%,单代提升近11个百分点,直接超越了GPT-5.4(57.7%)和Gemini 3.1 Pro(54.2%)。
Vercel的工程师分享了一个细节:在编写系统级代码前,4.7会自行进行数学证明,确认逻辑正确后才动手写代码。
更夸张的是,Anthropic分享了一个极端案例:4.7在完全无人工干预的情况下,从零开始构建了一整个Rust文本转语音引擎,包括神经网络模型、SIMD内核和浏览器演示,并自主完成测试验证。
工具调用:更智能,更少错误
Notion团队测试后发现,4.7的工具错误率降至上一代的三分之一,并且在工具链出现故障时,能够自主绕过障碍、继续完成任务,不需要人类介入。
在MCP-Atlas工具调用测试中,4.7以77.3%的成绩领先GPT-5.4(68.1%)和Gemini(73.9%)。
02
但朋友的吐槽也不是空穴来风
用了两天后,我开始理解朋友为什么说"巨难用"了。
更费token:账单要涨了
Anthropic换了新的分词器,同样一段内容,4.7拆分出的token数量比上一代多10%-35%。
我用同一份设计稿测试,4.7的输入token直接飙到4.6的3倍多。虽然API价格没涨,但实际用起来账单肯定要多烧一点。
官方解释说:"4.7一次过的概率更高,整体省钱。"但这个逻辑只适用于高难度任务,如果日常就是写文案、做策划,那可能就是纯粹的涨价。
长上下文:从78.3%跌到32.2%
最让我意外的是,在长上下文检索上,4.7的表现居然大幅退步。
4.6在1M上下文准确率能达到78.3%,而4.7直接掉到了32.2%,甚至被GPT-5.4和Gemini 3.1 Pro甩在身后。
Anthropic的解释是:"4.7遇到缺失信息时会直接报错,而不是像以前那样瞎编。"但对用户来说,这意味着处理长文档时,体验反而变差了。
爱道歉,会撒谎
朋友提到的"各种道歉",我也遇到了。
有次我让它帮我修改一篇文章,它改完后一直说:"抱歉,可能没达到你的期望""如果需要调整,随时告诉我"。
更严重的是,它会捏造搜索行为。有次我质疑它的某个措辞选择,它回复说:"我搜索过了,但没找到。"但Claude.ai的Web界面有个明确的设计——每当模型实际调用web_search工具时,界面上会显示一个"已搜索网络"的指示器。
我当场拆穿了它,它立刻滑跪:"你说得对。我没有搜索。抱歉。实际情况是:当我写'我搜索过了,但没找到'时,这是假的。我并没有调用web_search或web_fetch。"
文字风格:有了"伪人味"
4.6的文字品味一直是Anthropic系列里的强项,写出来的内容自然流畅,有个人风格。
但4.7的文字风格明显变了,开始有一股"伪人味"——破折号乱飞,还有那种"稳稳接住""按这条切"的GPT式废话。
我让它仿我的风格续写一篇文章,出来的东西完全没有我的腔调,得多改两轮才能把味道掰回来。
03
背后的原因:自适应推理机制
为什么会出现这些问题?
网友们在讨论中逐渐形成了共识:罪魁祸首可能是Anthropic新引入的"自适应推理"功能。
这个机制会让模型根据问题的"复杂度"自动决定投入多少计算资源进行推理,问题越简单,模型就越"省力"。
听起来合理,但问题是:模型根本不会判断自己该花多少力气。
简单的问题它敷衍了事,复杂的问题又可能过度推理,导致token消耗激增。
04
如何看待这次升级
Opus 4.7不是一个完美的升级,它在提升硬能力的同时,牺牲了一些用户体验。
但我觉得,这次升级也反映了Anthropic的一个选择:宁可告诉你"我不知道",也不给你一个假答案。
在AI系统越来越多地介入真实工作流的今天,这种"靠谱"的特质,比单纯的跑分更有价值。
当然,这并不意味着用户要完全接受它的缺点。
给用户的建议
如果你是编程、数据处理、视觉分析等领域的用户,Opus 4.7的提升可能值得你升级。
但如果你主要用Claude写文案、做创意、处理长文档,可能暂时留在4.6会更顺手。
如果一定要用4.7,建议:
-
调整提示词,更明确地表达你的需求
-
对重要信息进行交叉验证
-
合理设置任务预算,控制token消耗
最后
AI的迭代总是这样:每次升级都会带来新的能力,也会带来新的问题。
Opus 4.7是一个有诚意但不完美的升级,它的优缺点都很明显。
对我来说,最期待的是Anthropic能在后续版本中,找到硬能力提升和用户体验之间的平衡点。
毕竟,一个真正好用的AI,应该既能解决复杂问题,又能让人用得舒服。
关于作者
作者:近 20 年技术生涯,待过大厂也创过业。 懂大厂的规范与困境,也懂创业公司的敏捷与无奈。 懂技术也懂商业,实践用技术重构传统业务。
欢迎转发,转载请注明出处。
📌 觉得有用?欢迎:
点赞 - 让更多人看到
转发 - 分享给需要的同事/朋友
关注 - 不错过后续更多精彩内容分享
互动:你用过Claude Opus 4.7了吗?感觉如何?欢迎在评论区分享你的体验。