2026年2月5日,Anthropic 正式发布了旗舰模型 Claude Opus 4.6。这不只是一次常规升级——它在编程、推理、长文本理解等核心能力上实现了质的飞跃。本文用大白话带你看懂这次更新。
一句话总结:这次升级意味着什么?
如果把 AI 模型比作一个员工,之前的 Claude 是一个聪明但偶尔会走神的实习生,而 Opus 4.6 则是一个能独当一面、持续工作、极少出错的资深专家。
它的核心进步体现在三个方面:
- 更会写代码 —— 在业界最难的编程测试中拿下最高分
- 更能持久工作 —— 能处理相当于一本百万字小说长度的上下文
- 更会自主思考 —— 能拆解复杂任务,自我纠错,像真正的专家一样工作
能力一:编程水平大幅提升
Terminal-Bench 2.0 编程测试成绩
在名为 Terminal-Bench 2.0 的编程能力测试中,Opus 4.6 拿下了所有 AI 模型中的最高分。
这个测试不是让 AI 写个简单的排序算法,而是模拟真实的软件工程师日常:阅读大型代码库、定位 Bug、规划修复方案、然后动手改代码。
想象你让 AI 去一个有几十万行代码的大项目里找 Bug 并修好它——Opus 4.6 在这件事上做得比所有其他 AI 都好。
多语言编码能力
此外,它的多语言编程能力也显著增强,不管是 Python、JavaScript、Go 还是 Rust,都能流畅编写。
能力二:推理能力登顶
推理能力对比
在被称为"人类最后的考试"(Humanity's Last Exam)的超难推理测试中,Opus 4.6 ==领先所有其他前沿模型==。
这个测试汇集了各学科最顶尖的难题——数学、物理、哲学、法律等等——专门用来考验 AI 的深度思考能力。
[!info] 什么是"推理能力"? 简单说,推理能力就是 AI 不只是背答案,而是真正"想明白"问题的能力。比如给它一道从没见过的数学题,它能一步步推导出正确答案。
能力三:能读"一整本书"的超长上下文
长上下文检索性能
Opus 4.6 支持 100 万 token 的上下文窗口(目前为测试版),这大约相当于 75 万个中文字。
更重要的是,它不只是"能放进去",还能"真正记住"。在长文本检索测试(MRCR v2)中:
| 模型 | 准确率 |
|---|---|
| Opus 4.6 | 76% |
| Sonnet 4.5 | 18.5% |
差距是碾压级的。Opus 4.6 的长文本理解能力是上一代的 4 倍以上。
你可以把整个项目的代码、一整本书、或者几个月的会议记录一次性丢给它,它不仅能读完,还能从中精准找到你需要的信息。
能力四:知识工作的"超级打工人"
GDPval-AA 知识工作评估
在模拟金融分析、法律审查等知识工作的 GDPval-AA 评估中,Opus 4.6 领先 GPT-5.2 达 144 个 Elo 分。
用下棋来类比:144 个 Elo 分的差距,大概是一个业余高手和一个职业选手之间的距离。
长期一致性测试
在另一项"虚拟经营"测试中,Opus 4.6 比前代 多赚了 3,050 美元——这说明它在长时间执行复杂任务时,能保持更好的策略一致性和判断力。
能力五:科学研究的新利器
在计算生物学、结构生物学、有机化学等生命科学领域的测试中,Opus 4.6 的性能相比前代 ==提升了接近 2 倍==。
网络安全漏洞检测
在网络安全漏洞检测方面同样表现出色,能更精准地发现代码中潜在的安全隐患。
能力六:办公office领域下场
其次,Opus 4.6也在积极入侵传统办公领地。 对于办公用户,Anthropic更新了Excel集成,并发布了PowerPoint集成作为研究预览。
能直接在Excel里摄入凌乱的非结构化数据,自行推断合理的表格结构,一次操作中可处理多个复杂步骤;能铭记你公司的PPT模板,包括字体和布局风格也记住,确保生成的PPT没啥AI味,让老板以为是你熬夜框框一顿做的。
在Cowork环境下,Opus 4.6可以代表用户自主多任务运行,一边跑财务分析,一边把研究成果整理成文档。至少就官方说法而言,财务分析、研究,以及Office三件套,Claude Opus 4.6都可以玩儿得贼溜。
感觉,Anthropic有点想把Claude从聊天框里拉到更多空间里的意思?