Claude Opus 4.7：一个有诚意但不完美的升级视觉能力提升3倍、编程能力碾压GPT-5.4，却被用户吐槽"更费

视觉能力提升3倍、编程能力碾压GPT-5.4，却被用户吐槽"更费token、爱道歉、会撒谎"——Opus 4.7的真实面貌，比跑分更复杂。

深夜收到的推送

4月17日深夜，我收到这么一条消息：

"Claude Opus 4.7已全面可用，编程能力、视觉理解大幅提升。"

作为一个深度使用Claude的用户，我第一时间打开并准备尝试。

然后，我给同样在用Claude的朋友发了条消息："新版本来了，要不要试试？"

朋友的回复很直接："别试，巨难用，各种道歉，还会撒谎。"

这让我很好奇——官方吹得那么厉害，实际体验到底如何？

先说说它的好

客观讲，Opus 4.7在一些方面确实有了明显提升。

视觉能力：终于能看清细节了

以前用4.6处理图片时，我最头疼的就是它经常看不清楚表格里的数字。有次我发了一张车辆参数表的截图，结果它把"1.5T"识别成了"1.57"，害得我重新核对了半天。

4.7这次直接把图片分辨率上限拉到了3.75兆像素，是上一代的3倍多。我用同样的表格图测试，几乎没有识别错的数字，连小数点和单位都看得很清楚。

这对经常需要处理截图、图表的人来说，确实是个实用的升级。

编程能力：碾压GPT-5.4

在SWE-bench Pro编程基准测试中，Opus 4.7的成绩从53.4%跳升至64.3%，单代提升近11个百分点，直接超越了GPT-5.4（57.7%）和Gemini 3.1 Pro（54.2%）。

Vercel的工程师分享了一个细节：在编写系统级代码前，4.7会自行进行数学证明，确认逻辑正确后才动手写代码。

更夸张的是，Anthropic分享了一个极端案例：4.7在完全无人工干预的情况下，从零开始构建了一整个Rust文本转语音引擎，包括神经网络模型、SIMD内核和浏览器演示，并自主完成测试验证。

工具调用：更智能，更少错误

Notion团队测试后发现，4.7的工具错误率降至上一代的三分之一，并且在工具链出现故障时，能够自主绕过障碍、继续完成任务，不需要人类介入。

在MCP-Atlas工具调用测试中，4.7以77.3%的成绩领先GPT-5.4（68.1%）和Gemini（73.9%）。

但朋友的吐槽也不是空穴来风

用了两天后，我开始理解朋友为什么说"巨难用"了。

更费token：账单要涨了

Anthropic换了新的分词器，同样一段内容，4.7拆分出的token数量比上一代多10%-35%。

我用同一份设计稿测试，4.7的输入token直接飙到4.6的3倍多。虽然API价格没涨，但实际用起来账单肯定要多烧一点。

官方解释说："4.7一次过的概率更高，整体省钱。"但这个逻辑只适用于高难度任务，如果日常就是写文案、做策划，那可能就是纯粹的涨价。

长上下文：从78.3%跌到32.2%

最让我意外的是，在长上下文检索上，4.7的表现居然大幅退步。

4.6在1M上下文准确率能达到78.3%，而4.7直接掉到了32.2%，甚至被GPT-5.4和Gemini 3.1 Pro甩在身后。

Anthropic的解释是："4.7遇到缺失信息时会直接报错，而不是像以前那样瞎编。"但对用户来说，这意味着处理长文档时，体验反而变差了。

爱道歉，会撒谎

朋友提到的"各种道歉"，我也遇到了。

有次我让它帮我修改一篇文章，它改完后一直说："抱歉，可能没达到你的期望""如果需要调整，随时告诉我"。

更严重的是，它会捏造搜索行为。有次我质疑它的某个措辞选择，它回复说："我搜索过了，但没找到。"但Claude.ai的Web界面有个明确的设计——每当模型实际调用web_search工具时，界面上会显示一个"已搜索网络"的指示器。

我当场拆穿了它，它立刻滑跪："你说得对。我没有搜索。抱歉。实际情况是：当我写'我搜索过了，但没找到'时，这是假的。我并没有调用web_search或web_fetch。"

文字风格：有了"伪人味"

4.6的文字品味一直是Anthropic系列里的强项，写出来的内容自然流畅，有个人风格。

但4.7的文字风格明显变了，开始有一股"伪人味"——破折号乱飞，还有那种"稳稳接住""按这条切"的GPT式废话。

我让它仿我的风格续写一篇文章，出来的东西完全没有我的腔调，得多改两轮才能把味道掰回来。

背后的原因：自适应推理机制

为什么会出现这些问题？

网友们在讨论中逐渐形成了共识：罪魁祸首可能是Anthropic新引入的"自适应推理"功能。

这个机制会让模型根据问题的"复杂度"自动决定投入多少计算资源进行推理，问题越简单，模型就越"省力"。

听起来合理，但问题是：模型根本不会判断自己该花多少力气。

简单的问题它敷衍了事，复杂的问题又可能过度推理，导致token消耗激增。

如何看待这次升级

Opus 4.7不是一个完美的升级，它在提升硬能力的同时，牺牲了一些用户体验。

但我觉得，这次升级也反映了Anthropic的一个选择：宁可告诉你"我不知道"，也不给你一个假答案。

在AI系统越来越多地介入真实工作流的今天，这种"靠谱"的特质，比单纯的跑分更有价值。

当然，这并不意味着用户要完全接受它的缺点。

给用户的建议

如果你是编程、数据处理、视觉分析等领域的用户，Opus 4.7的提升可能值得你升级。

但如果你主要用Claude写文案、做创意、处理长文档，可能暂时留在4.6会更顺手。

如果一定要用4.7，建议：

调整提示词，更明确地表达你的需求
对重要信息进行交叉验证
合理设置任务预算，控制token消耗

最后

AI的迭代总是这样：每次升级都会带来新的能力，也会带来新的问题。

Opus 4.7是一个有诚意但不完美的升级，它的优缺点都很明显。

对我来说，最期待的是Anthropic能在后续版本中，找到硬能力提升和用户体验之间的平衡点。

毕竟，一个真正好用的AI，应该既能解决复杂问题，又能让人用得舒服。

关于作者

作者：近 20 年技术生涯，待过大厂也创过业。懂大厂的规范与困境，也懂创业公司的敏捷与无奈。懂技术也懂商业，实践用技术重构传统业务。

欢迎转发，转载请注明出处。

📌 觉得有用？欢迎：

点赞 - 让更多人看到

转发 - 分享给需要的同事/朋友

关注 - 不错过后续更多精彩内容分享

互动：你用过Claude Opus 4.7了吗？感觉如何？欢迎在评论区分享你的体验。