2026年开年,国产大模型圈热闹非凡。GLM、Kimi、Qwen等模型接连进行版本迭代,眼看着国内模型卷得飞起,大洋彼岸也终于开启更新节奏。
2月6日凌晨,Claude甩出了自己的新年王牌——Claude Opus 4.6。
作为Anthropic家族的最强大脑,Opus系列这次更新,没涨价,但能力涨了一大截。
我看完官方文档,给大家划重点:
这波升级,核心就三件事——更能干活、更能记事、更懂协作。
| 提升 | 具体表现 |
|---|---|
| 💻 编程 | 更强规划、更长执行、大代码库稳定运行、能自查自纠 |
| 🧠 记忆 | 1M token上下文(首次),长文检索准确率76% vs 18.5% |
| ⚙️ 控制 | 4档思考深度、自适应推理、上下文自动压缩、128k输出 |
| 📊 办公 | PowerPoint一键生成、Excel智能处理多步骤任务 |
| 🤝 协作 | 多代理并行工作,适合大规模代码库审查 |
🔄 相较于前序产品(Opus 4.5)的提升:
| 特性 | Opus 4.5 | Opus 4.6 |
|---|---|---|
| GDPval-AA | 基准 | +190 Elo点 |
| 长上下文 | 200k | 1M token |
| 输出token | 较低 | 128k |
| MRCR v2 | 未详细说明 | 76%(vs Sonnet 4.5的18.5%) |
| 代理任务持续性 | 较短 | 显著延长 |
| 过度拒绝率 | 基准 | 最低 |
总的来说,Claude Opus 4.6在保持定价不变的情况下,实现了编程能力、长上下文处理、推理深度的全面飞跃,特别是在代理任务和专业知识工作方面展现了显著优势。
302.AI已在第一时间接入Claude Opus 4.6 API,我们就来实测一下:这些数据上的提升,在实际使用中,能不能"肉眼可见"地感受到?
I. 实测模型基础信息
(1)测评目的:
本评测侧重模型对逻辑,数学,编程,人类直觉等问题的测试,非专业前沿领域的权威测试。旨在观察对比模型的进化趋势,提供选型参考。
(2)测评方法:
本次测评使用302.AI收录的题库进行独立测试。3款模型分别就逻辑与数学(共10题),人类直觉(共7题),多模态(共20题)以及编程模拟(共12题)进行案例测试,对应记分规则取最终结果,下文选取代表性案例进行展示。
题库地址:docs.google.com/spreadsheet…
💡记分规则:
按满分10分记分,设定对应扣分标准,最终取每轮得分的平均值。
(3)测评工具:
-
所有模型均在302.AI Stuidio客户端内使用对应模型,使用统一的提示词,取第一次生成结果
-
编程测试使用302.AI Stuidio客户端的Vibe模式:调用Claude Code沙盒 + Skills(本期实测使用 brand-guidelines 和 frontend-design)
编程案例分数评级:
⭐⭐⭐⭐⭐ S 级(封神): 行业标杆,重新定义标准。
⭐⭐⭐⭐ A 级(卓越): 生产力合格,无明显短板。
⭐⭐⭐ B 级(优秀): 表现中规中矩,存在短板。
⭐⭐及以下 C级(不合格): 不可用,存在明显问题。
II. 测试结果总览
302.AI 题库测试结果:
302.AI 多模态模型测评分数总榜单:
剔除多模态分数榜单:
III. 案例展示
案例 1:逻辑推理
提示词:
0 0 0 = 6
1 1 1 = 6
2 2 2 = 6
3 3 3 = 6
4 4 4 = 6
5 5 5 = 6
6 6 6 = 6
7 7 7 = 6
8 8 8 = 6
9 9 9 = 6
请在空白处使用任意数学符号,使以上所有代数表达式成立。
Claude Opus 4.6 回答正确
案例 2:多模态识别
提示词:
What is the color of the shirt worn by a man playing the guitar?
Options: A: Blue, B: Black, C: Red, D: White 翻译:图中穿哪个颜色衣服的人正在弹奏吉他?
选项:A.蓝色 B.黑色 C.红色 D.白色 正确答案:B.黑色
Opus 4.6 错误将白衣男子弹奏的班卓琴(可见清晰的圆形琴身)识别为了吉他
案例 3:前端编程-小程序
提示词:
请担任高级全栈架构师和产品经理的角色,为我设计和生成一个类似“菜鸟裹裹”或“顺丰速运”的快递服务微信小程序的项目方案与核心代码。
一、项目核心目标
开发一个集“快递寄件、运单查询、上门取件预约、服务点查找”于一体的综合性快递服务小程序。核心特点是:流程标准化、状态透明化、操作便捷化。
二、详细需求说明
用户端核心功能模块:
首页/快速寄件:
- 核心寄件表单:寄/收件人信息(姓名、电话、地址)、物品信息(类型、重量/数量、备注)、取件时间选择。
- 一键复制常用地址或从地址簿选择。
- 实时运费估算功能(根据地址、重量模拟计算)。
运单查询(核心功能):
- 通过运单号或扫码查询快递物流详情。
- 以清晰的时间轴形式展示物流状态(如:已下单、快递员已取件、运输中、到达网点、派送中、已签收)。
- 支持同时添加并管理多个运单(我的快递)。
上门取件预约管理:
- 展示已预约的取件订单列表(待取件、已完成)。
- 允许修改取件时间或取消订单。
服务网点查找:
- 基于用户位置或手动输入地址,显示附近的快递网点、智能柜位置。
- 展示网点信息(名称、地址、距离、营业时间、联系方式)。
- 集成简易地图视图进行位置展示。
个人中心:
- 我的地址簿管理(增删改查)。
- 我的运单历史记录。
- 在线客服入口。
技术栈与框架要求:
- 前端: 使用微信小程序原生框架,UI组件库推荐使用Vant Weapp,因其有丰富的表单和列表组件。需集成微信小程序地图组件(Map)。
- 后端(模拟/简化): 使用Node.js (Express) 提供API。本次重点模拟核心业务流程,数据库可先用JSON文件模拟。
- 关键集成(模拟): 物流查询API(可用模拟数据实现)、地图选址(模拟坐标点)、微信支付(模拟流程)。
交付要求:
第一步: 输出项目整体目录结构。
第二步: 输出核心数据结构的JSON格式定义(重点:
User用户,Address地址,ExpressOrder寄件订单,Logistics物流轨迹)。第三步: 优先实现并交付以下关键页面的前端代码(WXML, WXSS, JS) 和对应的后端API接口定义(路径、方法、请求/响应示例):
快速寄件页:完整的表单验证与提交逻辑。运单查询结果页:物流时间轴组件的实现与数据渲染。服务网点页:静态网点数据列表与地图组件的集成展示。
一个有意思的现象,此处 Opus 4.6 并未像其他模型一样直接输出小程序,而是输出了一个项目宣传网页,这个出发点似乎是基于提示词中“请担任高级全栈架构师和产品经理的角色”以及“项目方案”的视角理解。侧面体现出模型对处理复杂指令的思维模式差异,体现出一种产品架构师思维。
然而在同个提示词下,其余测试模型输出的是完整的小程序代码。
案例 4:前端编程-网页复刻
在前几期实测中,我们使用 Kimi K2.5 复刻了这个 Figma 网页,现在将录屏给到 Claude Opus 4.6,观察其复刻结果如何:
Claude Opus 4.6 输出效果:
Opus 4.6 一次的输出,可达成 70% 以上的复刻效果,较为出色的细节还原体现在 Hero 页的动态文字轮换上,按照原网页设计输出了不同文案。
案例 5:3D场景原型
提示词: 核心需求: 用Three.js制作一个日式禅意庭院3D场景,包含所有代码的一个HTML文件。 场景包含: 建筑:木亭(方柱+圆柱组合)、沙地(带细微纹路)、石水钵、鹅卵石小径 植物:2-3棵简化樱花树(锥体+球体组合),有飘落花瓣 氛围:月光方向光、灯笼点光源、淡雾、可调日夜循环 动画:水面波动、花瓣飘落 交互:鼠标旋转缩放视角,dat.GUI调整参数 要求: 用内置几何体,代码简洁直接运行。
Claude Opus 4.6 输出效果:
✅加分项:
- 用数学函数生成沙纹,而非贴图
- 实现完整的日夜循环,增加可控制的自动模式开关
- 添加了大量装饰性细节(竹篱、苔藓、石头)
附此前测过的 GLM 4.7 的输出效果:
IV. Claude Opus 4.6 模型实测结论
实测结果汇总:
| 序号 | 案例1 | 案例2 | 案例3 | 案例4 | 案例5 |
|---|---|---|---|---|---|
| 测试案例 | 逻辑推理 | 多模态识别 | 前端编程-小程序 | 前端编程-网页复刻 | 3D场景原型 |
| Claude Opus 4.6 | ✔️ | ❌ | ❌ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
众望所归,综合本次测评表现与跑分数据,Claude Opus 4.6 展现出了在逻辑推理、人类直觉与编程模拟三个核心维度的硬核实力。
先说最直观的,编程向来是 Claude 系列的舒适区。本次实测中,Opus 4.6 的整体编程水平相比 Opus 4.5 有稳定提升,尤其在网页复刻等需要多步骤执行的任务中,一次输出就能达到较高的完成度,证实了此次迭代在复杂指令理解和执行连贯性上的进步。
一个有趣的细节是,在开发“快递小程序”的编程案例中,与其他模型直接输出代码的表现不同,Opus 4.6 输出的是一份完整的项目宣传页与架构方案,展现出一种区别于常规“码农式 AI”的产品架构思维。然而这一思维变化也成为一个不确定因素,一方面,这种“产品视角”在需要从零规划的项目中可能是个优势,另一方面,在追求快速生成标准化代码的简单任务里,这种思考模式可能会显得迂回。
回顾 Opus 4.6 本次升级最亮眼的部分——100 万 token 的上下文支持。关键不仅在于容量变大,更在于性能的保持。其在 MRCR v2 (大海捞针测试)中准确率高达 76%,远超前代模型的。这意味着你可以将整个项目的代码库或数百页的财报丢给它,
尽管本次实测未直接进行百万 token 的极限压力测试,但在涉及多元素、多要求的复合任务,如包含建筑、植物、光影、交互的 3D 场景生成中,Opus 4.6 展现出了优秀的指令遵从与细节统筹能力,没有出现明显的遗漏或“近因偏差”。这让我们有理由相信,这种特性,使其能够在实际处理长文档分析、大型代码库审查等任务时,将能转化为可感知的连贯性与准确性优势。
综合来看,Claude Opus 4.6 的进化进一步暗示我们,AI 大模型迭代的竞争标准似乎已经不再局限于那个单纯刷分的年代,而是致力于是通过提升可靠性、植入产品化思维、强化长程任务执行力,来真正适配高价值、高复杂度的知识工作流。Opus 4.6 真正的价值,真正价值,或许就在那些耗时数小时、跨越多个文件与环节的真实工作流中得以显现。