Anthropic 发布 Opus 4.6：AI难题迎刃而解，表现一骑绝尘Anthropic发布Opus 4.6，在基准

Anthropic发布Opus 4.6，在基准测试中表现出色，尤其擅长解决复杂问题。它新增了百万token上下文窗口、自适应思维和代理团队功能，显著提升了企业级应用的效率和能力。

译自：Anthropic debuts Opus 4.6 with standout scores for solving hard problems that other AIs miss

作者：Frederic Lardinois

Anthropic 周四推出了 Opus 4.6，这是其旗舰 Opus 模型的更新，在几乎所有基准测试中都比其前身以及许多竞争对手有了重大改进。

Opus 4.6 还增加了一些有用的新功能，包括一个一百万个 token 的上下文窗口，能够输出多达 128,000 个 token，以及 Claude 代码中的代理团队，可以并行处理任务。

定价与之前相同：每百万输入/输出 token 分别为 5 美元/25 美元。

企业用户的一大飞跃

该公司认为，Opus 4.6 在企业工作流程中使用大型语言模型（LLMs）方面是一大飞跃，因为它能够处理更复杂的任务并更快地交付结果。

正如 Anthropic 发言人告诉 The New Stack 的那样，“它在首次尝试时就比我们见过的任何模型都更接近生产就绪的质量——文档、电子表格和演示文稿将需要更少的反复迭代。”

Anthropic 指出，例如，Excel 中的 Claude 现在可以一次性处理运行时间更长、更复杂的任务和多步骤更改。

PowerPoint 中的 Claude Opus 4.6（图片来源：Anthropic）。

基准测试

按照 Anthropic 模型的传统，Opus 4.6 再次在编码基准测试中有所改进，但 SWE-bench 验证测试和用于测试工具使用的 MCP Atlas 基准除外，两者都显示出小幅退步。这有点异常，特别是考虑到该模型在检查终端中的代理编码（Terminal Bench 2.0）和代理工具使用（t2-bench）的类似基准测试中表现出色。

在 Terminal Bench 上，Opus 4.6 的得分从 Opus 4.5 的 59.8% 上升到 65.4%，在 OSWorld 代理计算机使用基准测试中，其得分从 66.3% 上升到 72.7%。这使其现在领先于 OpenAI 的 GPT-5.2 和 Google 的 Gemini 3 Pro，并且根据 Anthropic 的说法，新模型在诊断更复杂的错误方面表现尤其出色。

Claude Opus 4.6 Terminal Bench 基准测试（图片来源：Anthropic）。

Anthropic 报告称，在各项基准测试中均取得了类似进展。然而，最突出的是其在 ARC AGI 2 基准测试中获得了 68.8% 的分数，该基准测试关注的不是在专业任务中达到博士级表现，而是解决对人类来说容易但对 AI 系统来说非常困难的问题。Opus 4.5 仅获得 37.6%，而 Gemini 3 Pro 获得 45.1%，GPT-5.2 获得 54.2%。

当然，基准测试只说明了部分情况，并不总是反映这些模型在实践中的工作方式。Anthropic 认为，在其内部使用中，Opus 4.6 即使没有明确指示，也处理了更具挑战性的任务，并且处理得更快，结果更好。

在安全评估中，Anthropic 发现 Opus 4.6 在欺骗、奉承和鼓励用户妄想等错位方面与 Opus 4.5 表现一致。

代理团队

然而，对于开发人员来说，最有趣的新功能可能是代理团队。虽然开发人员已经找到了规避方法，但默认情况下，Claude Code 到目前为止一次只运行一个代理。现在，Anthropic 正在引入代理团队，允许开发人员将工作分配给多个代理。这些代理可以并行工作并自主协调他们的努力。

Anthropic 指出，这对于读取密集型工作特别有用，例如代码库审查。

Anthropic 发布 Opus 4.6：AI难题迎刃而解，表现一骑绝尘

企业用户的一大飞跃

基准测试

更多功能

代理团队