Claude Opus 4.7怎么样?新功能、性能与使用场景全解析

0 阅读1分钟

Anthropic 于 4 月 16 日发布 Claude Opus 4.7。官方将其定位为面向高复杂度工作的最新旗舰模型,重点强化了高级软件工程、长流程代理任务和视觉理解能力,并称其在最困难的编程任务上相比 Opus 4.6 有明显提升。

从这次发布看,Anthropic 正在把 Claude 从“更会回答问题”推进到“更能独立完成复杂任务”。除了编码与推理能力升级,Opus 4.7 还支持更高分辨率图像输入,并配套上线新的网络安全防护机制,以限制高风险网络安全用途。对开发者而言,这次更新既是一次性能升级,也是 Claude 在企业级代理执行和专业工作流方向上的进一步落地。

Claude Opus 4.7介绍

Opus 4.7 是 Opus 4.6 在高级软件工程领域的一次显著进步,在处理最困难的任务时取得了显著成效。用户报告称,他们能够放心地将最棘手的编程工作——即过去需要密切监督的任务——交给 Opus 4.7 来完成。Opus 4.7 以严谨和一致的态度处理复杂、长期的任务,能精准遵循指令,并能在汇报前设法验证其输出结果。

该模型还具备更强的视觉能力:它能以更高的分辨率识别图像。在完成专业任务时,它更具品位和创造力,能产出更高质量的界面、幻灯片和文档。此外,尽管它在广度上不如我们最强大的模型 Claude Mythos Preview,但在多项基准测试中,其结果均优于 Opus 4.6:

上周,我们宣布了 Project Glasswing,重点介绍了人工智能模型在网络安全方面的风险与收益。我们曾声明,将限制 Claude Mythos Preview 的发布,并首先在能力较弱的模型上测试新的网络安全保障措施。Opus 4.7 是首个此类模型:其网络安全能力并不像 Mythos Preview 那样先进(事实上,在训练过程中,我们尝试了差异化地降低这些能力)。我们在发布 Opus 4.7 时,配置了能自动检测并拦截指示禁止或高风险网络安全用途请求的保障措施。从这些保障措施的实际部署中所获得的经验,将帮助我们朝着最终目标——Mythos 级别模型的广泛发布——迈进。

欢迎希望将 Opus 4.7 用于合法网络安全目的(如漏洞研究、渗透测试和红队测试)的专业人员加入我们全新的 Cyber Verification Program。

Opus 4.7 现已在所有 Claude 产品及我们的 API、Amazon Bedrock、Google Cloud’s Vertex AI 和 Microsoft Foundry 上发布。定价与 Opus 4.6 保持一致:每百万输入 token 5 美元,每百万输出 token 25 美元。开发者可以通过 Claude API 使用 claude-opus-4-7

测试Claude Opus 4.7

Claude Opus 4.7 已从我们的早期测试者那里获得了强烈的反馈:

在早期测试中,我们看到了 Claude Opus 4.7 为开发者带来的巨大飞跃潜力。它能在规划阶段捕捉到自身的逻辑缺陷并加速执行,远超以往的 Claude 模型。作为一家为数百万消费者和企业提供服务的金融技术平台,这种速度与精度的结合可能是改变游戏规则的关键:它提升了开发速度,从而能更快速地交付客户每天依赖的值得信赖的金融解决方案。 — Clarence Huang,技术副总裁

Anthropic 已经树立了编程模型的标准,而 Claude Opus 4.7 以市场领先模型的身份,在该领域进行了有意义的进一步推进。在我们内部评估中,它不仅因原始能力脱颖而出,还在于它如何出色地处理真实世界的异步工作流——自动化、CI/CD 和长期运行的任务。它对问题的思考更深入,并带来了更有见地的视角,而不是简单地附和用户。 — Igor Ostrovsky,联合创始人兼首席技术官

关于Claude Opus 4.7的早期测试要点:

  • 指令遵循:Opus 4.7 在遵循指令方面有了显著提升。有趣的是,这意味着为早期模型编写的提示词现在可能会产生意想不到的结果:以前的模型可能会宽松地解释指令或完全跳过部分内容,而 Opus 4.7 会字面意思地执行指令。建议用户相应地调整提示词和调用框架。

  • 改进的多模态支持:Opus 4.7 对高分辨率图像具备更强的视觉能力:它可以接收长边最高 2,576 像素(约 375 万像素)的图像,是先前 Claude 模型的 3 倍以上。这开启了大量依赖精细视觉细节的多模态用途:计算机使用代理读取密集截图、复杂图表的数据提取,以及需要像素级参考的工作。

  • 真实世界工作:除了在金融代理评估中取得领先成绩外,我们的内部测试表明 Opus 4.7 比 Opus 4.6 更为有效的金融分析师,能产出严谨的分析和模型,更专业的演示文稿,以及任务间更紧密的整合。Opus 4.7 还是 GDPval-AA(一项针对金融、法律等领域具有经济价值知识工作的第三方评估)领域的领先模型。

  • 记忆能力:Opus 4.7 在使用基于文件系统的记忆方面表现更佳。它能记住跨长周期、多会话工作中的重要笔记,并利用它们去处理新的任务,从而减少了对前置上下文的需求。

安全与对齐

总体而言,Opus 4.7 展示了与 Opus 4.6 相似的安全状况:我们的评估显示,欺骗、谄媚和配合滥用等令人担忧的行为发生率较低。在诚实度和对恶意“提示词注入”攻击的防御力等某些指标上,Opus 4.7 是对 Opus 4.6 的改进;而在其他方面(如在受控物质问题上提供过度详细的减少危害建议的倾向),Opus 4.7 则表现稍弱。我们的对齐评估得出的结论是,该模型“很大程度上是良好对齐且可信的,尽管其行为并非完全理想”。请注意,根据我们的评估,Mythos Preview 仍然是我们训练出的对齐效果最好的模型。我们的安全评估已在 Claude Opus 4.7 系统卡 中进行了全面讨论。

同时更新内容

除了 Claude Opus 4.7 本身,我们还推出了以下更新:

  • 更多的努力控制(Effort Control):Opus 4.7 引入了介于 highmax 之间的全新 xhigh(超高)努力级别,让用户能更精细地控制处理困难问题时推理与延迟之间的权衡。在 Claude Code 中,我们将所有方案的默认努力级别提高到了 xhigh。在测试用于编程和代理用例的 Opus 4.7 时,我们建议从 highxhigh 努力级别开始。

  • 在 Claude 平台(API)上:除了支持更高分辨率的图像外,我们还推出了任务预算的公开测试版,为开发者提供了一种指导 Claude 代币支出的方式,使其能够在较长运行中优先处理任务。

  • 在 Claude Code 中:新的 /ultrareview 斜杠命令 会生成一个专门的审查会话,用于通读更改并标记出仔细的审阅者会注意到的错误和设计问题。我们为 Pro 和 Max 版本的 Claude Code 用户提供三次免费的 ultrareview 试用机会。此外,我们将 auto mode 扩展到了 Max 用户。Auto mode 是一种新的权限选项,Claude 可以代表你做出决策,这意味着你可以运行更长时间的任务而中断更少,且风险低于你选择跳过所有权限的情况。

Claude Opus 4.7价格与使用

Claude Opus 4.7定价维持与 Opus 4.6 相同:每百万输入 token 5 美元、每百万输出 token 25 美元。

神马中转API价格

可以在神马中转API尝鲜测试使用

首页-工作台-操练场选择模型claude-opus-4-7,输入问题测试使用或者API接入

GPT-5.4中转API,国内直连gpt

从 Opus 4.6 迁移到 Opus 4.7

Opus 4.7 是对 Opus 4.6 的直接升级,但有两个变化值得提前规划,因为它们会影响代币使用量。首先,Opus 4.7 使用了更新的分词器(tokenizer),改善了模型处理文本的方式。其权衡是,相同的输入可能会映射到更多的 token——根据内容类型,大约为 1.0 到 1.35 倍。其次,Opus 4.7 在更高的努力级别下思考得更多,特别是在代理环境的后期阶段。这提高了其在处理难题时的可靠性,但也意味着它会产生更多的输出 token。

用户可以通过多种方式控制代币使用:使用努力参数、调整任务预算,或提示模型更加简洁。在我们自己的测试中,净效果是积极的——在内部编程评估中,所有努力级别的代币使用效率均有所提高,但我们建议针对实际流量测量其差异。我们编写了一份 迁移指南,提供了从 Opus 4.6 升级到 Opus 4.7 的进一步建议。

Claude Opus 4.7版本更新概览

Claude Opus 4.7 是目前性能最强的通用模型,在复杂推理、代理式编码(Agentic Coding)、视觉任务及记忆任务方面表现出色。

以下是本次更新的核心要点:

1. 新功能

  • 高分辨率图像支持: 最大图像分辨率提升至 2576px / 3.75MP(此前为 1568px / 1.15MP)。模型坐标现在与实际像素 1:1 对应,无需进行比例换算,且提升了定位与感知能力。

  • 新的“xhigh”努力等级(Effort Level): 允许用户在智能程度与响应速度/成本之间进行权衡。建议在编码和代理任务中使用 xhigh,常规任务至少使用 high

  • 任务预算(Task Budgets,Beta版): 用户可设定一个目标 Token 预算,让模型在代理循环中通过该预算来规划任务节奏,从而更优雅地完成工作。

2. 重要变更(API 层面)

  • 移除扩展思考预算: 此前的 budget_tokens 参数不再支持,统一使用 {"type": "adaptive"} 的自适应思考(Adaptive Thinking)模式。

  • 采样参数移除: 设置 temperaturetop_ptop_k 将导致报错。现在建议通过提示词(Prompting)来引导模型行为。

  • 思考内容默认隐藏: 思考过程在流式输出中默认不显示。如需查看,需设置 display: "summarized"

  • 更新 Token 计算: 使用了新的分词器(Tokenizer),文本处理的 Token 消耗可能增加 0% 到 35% 不等。

3. 行为改进

  • 更精准的指令遵循: 模型将更字面地执行指令,不再进行过度的自我延伸或推断。

  • 响应长度自适应: 响应长度现在根据感知到的任务复杂度动态调整,而非固定 verbosity。

  • 更少的默认工具调用: 在通过推理解决问题时减少了不必要的工具调用。

  • 更直接的语调: 语气更加直接、专业,减少了之前的“验证式”语调和表情符号使用。

  • 更频繁的进度更新: 在长任务执行过程中,模型会更自然地主动汇报进度。

Claude Opus 4.7 是 Anthropic 面向高复杂度专业工作的最新旗舰模型,重点提升了高级软件工程、长流程代理执行、视觉理解和跨任务记忆能力。 相比 Opus 4.6,它在最困难的编程任务、真实业务工作流和多模态场景中表现更强,能够更严格地遵循指令、更稳定地完成长期复杂任务,并在输出前主动验证结果。

同时,Opus 4.7 还带来了更高分辨率图像输入、全新的 xhigh 努力等级、任务预算等更新,进一步增强了开发者在复杂任务中的控制力。虽然定价保持不变,但由于采用新 tokenizer 和更深度推理机制,整体 token 消耗可能上升。整体来看,这次发布不仅是一次模型性能升级,也标志着 Claude 正从“对话式助手”进一步走向“可独立执行专业工作流的智能体”。