Claude Opus 4.7 登场：视觉、记忆与指令遵循能力全面进化\n\nAnthropic发布Claude Opu

\n\nAnthropic发布Claude Opus 4.7，在指令遵循、视觉、记忆及财务分析方面显著提升。虽综合能力略逊于Mythos，但其更擅长处理复杂长任务。需注意其Token消耗因思考深度增加而可能上升。

译自：Claude Opus 4.7 arrives with better vision, memory, and instruction-following

作者：Meredith Shubel

周三，Anthropic 发布了 Claude Opus 4.7，这是对 Opus 4.6 的直接升级。它在处理复杂、长期运行的任务方面可能优于前代模型，但在广义能力上略逊于上周发布的近乎神话般的 Claude Mythos 预览版。

现在，Opus 4.7 已在所有 Claude 产品和 Anthropic 的 API（以及 Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry）中上线，定价与 Opus 4.6 相同。Anthropic 的公告称，Opus 4.7 在指令遵循、视觉、创造力、记忆和财务分析方面均有更出色的表现。

Anthropic 称 Opus 4.7 在哪些方面做得更好

Anthropic 报告称，Opus 4.7 的早期测试者（包括 Intuit、GitHub 和 Notion）给出了强烈的正面反馈。

首先，之前的 Claude 模型在遵循用户指令时可能会推测“弦外之音”（或者完全忽略指令），而最新的迭代版本据报道更擅长听从指挥。

据报道，Claude Opus 的最新迭代版本更擅长按要求办事。

有趣的是，Anthropic 的公告指出，这种更新后的能力意味着“为早期模型编写的提示词有时现在会产生意想不到的结果”。因此，Claude 用户可能需要调整他们的提示词编写风格，以适应 Opus 4.7 更加字面化的指令遵循方式。

“为早期模型编写的提示词有时现在会产生意想不到的结果。”

此外，模型还承诺为高分辨率图像提供更好的视觉能力，随之而来的是更多的多模态用途。Opus 4.7 用户可以预期模型能够接受比以前多三倍以上像素的图像，从而为更多依赖精细视觉细节的用途铺平道路，例如阅读密集的屏幕截图。

比较模糊的一点是，Anthropic 称 Opus 4.7 在“完成专业任务时更有品味且更有创意”，并引用了一些早期测试者的反馈来证明该模型具有据称“更高质量”的界面、幻灯片和文档设计：

“设计品味真的令人惊讶——它做出的选择是我在实际工作中会采用的，”Triple Whale 的联合创始人兼 CEO Aj Orbach 在 Anthropic 的博客文章中表示。

Opus 4.7 的下一个亮点是增强的记忆力。Anthropic 的公告称，新模型“更擅长使用基于文件系统的记忆”，使其能够记忆并引用不同任务之间的笔记，从而使用户无需反复提供前期背景信息。

最后，在发布博客文章中，Anthropic 强调 Opus 4.7 在 GDPval-AA 测评中处于领先地位。这是一项第三方评估，旨在测试大语言模型（LLM）在金融和法律等领域处理具有经济价值的真实世界任务的能力。

与此同时，这家 AI 公司表示，其内部测试显示 Opus 4.7 是“比 Opus 4.6 更有效的财务分析师”，这归功于其严谨的分析、更专业的演示文稿以及跨任务的紧密集成。

安全性表现如何？

虽然 Opus 4.7 宣传改进了指令遵循、视觉和记忆，但在安全性方面进展甚微。

根据 Anthropic 的测试，与今年 2 月发布的 Opus 4.6 相比，新模型在欺骗、谄媚和配合滥用方面的比例同样较低，据报道在诚实度和抵御提示词注入攻击方面有所改进。

但 Opus 4.7 确实有一项安全性降级：根据 Anthropic 的说法，在“针对受控物质提供过度详细的减少危害建议的倾向”方面，Opus 4.7 稍显逊色。

总体而言，根据 Anthropic 的对齐评估，该模型被描述为“大部分对齐良好且值得信赖，尽管其行为并非完全理想”。

绕不开的 Mythos 模型

自然，紧随上周发布的 Claude Mythos 预览版（以及后续 ASI 评估的结果）之后，人们难免会将其与 Anthropic 发言人告诉 Fortune 的“我们迄今为止构建的能力最强的[模型]”进行比较。

三周过去了，这家 AI 公司的论调没有改变。在 Opus 4.7 的发布博客文章中，Anthropic 再次确认了 Claude Mythos 预览版作为“我们训练过的对齐最好的模型”的地位。

此外，它表示正在履行其承诺，即使用能力较弱的模型作为新网络安全防护措施的试验场——Opus 4.7 就是第一个此类模型。

Anthropic 表示，该模型的发布包含了能够“自动检测并阻止指示禁止或高风险网络安全用途请求”的防护措施。展望未来，它希望利用 Opus 4.7 现实部署中的经验教训，最终实现“Mythos 级模型”的更广泛发布。

当被问及公司希望从 Opus 4.7 的部署中了解哪些关于网络安全防护的信息时，Anthropic 未予置评。

但要注意 Token 使用量

在最近的一连串坏运气中，Anthropic 一直在处理用户关于达到使用限制的速度比平时快的投诉。

现在，当用户计划从 Opus 4.6 迁移到 Opus 4.7 时，这家 AI 公司强调了两个将影响 Token 使用量的变化：Opus 4.7 使用了更新的分词器（tokenizer），并且“在更高努力水平下思考得更多”。

虽然这些变化应该会提高可靠性和文本处理能力，但 Anthropic 提醒 Claude 用户可能会看到 Token 使用量增加。为了缓解这种情况，它建议用户使用 effort 参数、调整任务预算，或者直接告诉模型要更简洁。全工智能