阿里在今年2月发布Qwen3.5系列之后,紧接着于4月正式推出了Qwen3.6-Plus。官方宣称,Qwen3.6-Plus相较于前代模型实现了全方位的能力升级,其中最核心的升级方向是智能体编程能力——无论是前端网页开发还是复杂的代码仓库级问题求解,Qwen3.6-Plus均树立了新的业界标杆。此外,该模型在多模态感知与推理能力上也有所增强。我们对其API版本qwen3.6-plus进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。需要说明的是,本次评测侧重中文场景下的综合能力考察。
qwen3.6-plus版本表现:
- 测试题数:约1.5万
- 总分(准确率):71.6%
- 平均耗时(每次调用):68s
- 平均token(每次调用消耗的token):3676
- 平均花费(每千次调用的人民币花费):41.6
1、新旧对决
对比上一版本(qwen3.5-plus),Qwen3.6-Plus在能力结构上发生了显著调整,数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
-
整体准确率出现回调:新版本准确率从74.6%降至71.6%,下降了3.0个百分点,排名从第3位降至第13位。这是一个值得关注的变化——作为阿里最新的旗舰API模型,在中文综合能力维度上并未延续上一代的上升势头。
-
语言与指令遵从显著提升:该维度是新版本唯一实现明显提升的领域,从65.5%提升至70.3%(+4.8%),这意味着模型在理解和执行复杂中文指令方面有了明显改善。
-
多个垂直领域出现不同程度下降:从细节来看,“金融”从83.4%降至77.1%(-6.3%);“Agent与工具调用”从73.7%降至64.7%(-9.0%);“法律与行政公务”从83.0%降至81.3%(-1.7%);"医疗与心理健康"从84.8%降至83.8%(-1.0%)。"教育"领域基本持平,从60.9%微降至60.0%(-9.0%)。
-
需要指出的是,"Agent与工具调用"维度在本次评测中下降了9.0个百分点,这与官方宣称的"智能体编程能力大幅提升"形成了反差。
-
响应时间小幅延长:平均耗时从57s增加至68s,增幅约19%,变化幅度不大,整体保持在可接受范围内。
-
成本结构发生较大变化:平均Token消耗从4975降至3676(-26%),模型输出更为精炼。但输出价格从4.8元/M token上调至12.0元/M token,涨幅达150%。两相对冲之下,每千次调用的费用从22.9元增加至41.6元,成本上涨约82%,同时模型类别也从"开源"转为"商用"。
2、横向对比:新旗舰的竞争身位
在当前主流大模型竞争格局中,qwen3.6-plus作为阿里最新发布的旗舰API模型表现如何?我们从三个维度进行横向对比分析:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比
- 中高端区间竞争激烈:qwen3.6-plus的花费为41.6元/千次,处于40至55元的成本区间。在该档位中,qwen3-max-think-2026-01-23(72.8%,43.5元)以略高的准确率和相近的花费占据优势,两者差距为1.2个百分点。GLM-4.7(71.5%,52.5元)与qwen3.6-plus准确率接近,但花费更高。
- 向上看更高成本档位:gemini-3-pro-preview(72.5%,247.3元)和gpt-5.1-high(69.7%,180元)花费远高于qwen3.6-plus,但准确率优势并不明显,甚至gpt-5.1-high的准确率还低于qwen3.6-plus。
- 向下看更具成本效率比的选择:值得关注的是,Doubao-Seed-2.0-pro(76.5%,22.5元)和qwen3.5-plus(74.6%,22.9元)均以约一半的花费提供了更高的准确率。Doubao-Seed-2.0-lite(73.9%,5.4元)甚至以不到qwen3.6-plus七分之一的花费,实现了更高的准确率。如果单纯从中文综合能力和成本效率的角度出发,qwen3.6-plus在当前档位并不占优。但需要强调的是,qwen3.6-plus的核心竞争力在于其编程Agent能力和多模态感知——这些能力在当前评测框架中无法充分体现。
新旧模型对比
- 阿里产品线内部出现分化:在当前榜单中,阿里系模型呈现出明显的梯队分布——qwen3.5-plus(74.6%,第3位)仍然领跑,Qwen3.5-122B-A10B(74.0%,第4位)紧随其后,qwen3-max-think-2026-01-23(72.8%,第6位)位居中上游,而作为最新发布的qwen3.6-plus(71.6%,第13位)在中文综合准确率上反而排在前代之后。这种"新模型准确率不及前代"的现象,在行业中并非首次出现——当模型的核心迭代方向与评测维度不完全重合时,此类结果在意料之中。
- 对比其他厂商新模型:qwen3.6-plus(71.6%)与GLM-4.7(71.5%)、gemini-3-flash-preview(71.5%)、GLM-5-Turbo(71.5%)处于同一水平线,与Doubao-Seed-2.0-mini(71.8%)也基本持平。但与榜首的Doubao-Seed-2.0-pro(76.5%)和gemini-3.1-pro-preview(74.8%)相比,存在约3至5个百分点的差距。
开源VS闭源对比
- 身份切换值得关注:qwen3.6-plus的类别从上一代qwen3.5-plus的"开源"变为"商用"(闭源)。官方表示后续将开源Qwen3.6系列的其他尺寸模型,但当前旗舰版本为闭源商用。
- 闭源阵营中的位置:在闭源模型中,qwen3.6-plus(71.6%,41.6元)的成本效率比并不突出。同为闭源的Doubao-Seed-2.0-pro(76.5%,22.5元)在准确率和成本两个维度上均占据优势。hunyuan-2.0-thinking-20251109(71.9%,9.5元)以极低的成本提供了相近的准确率。
- 开源阵营持续发力:在开源模型中,qwen3.5-plus(74.6%,22.9元)、Qwen3.5-122B-A10B(74.0%,32.3元)、qwen3.5-flash(70.8%,10.4元)均展现了极具竞争力的成本效率。DeepSeek-V3.2-Think(70.9%,7.5元)同样以极低的花费提供了接近qwen3.6-plus的准确率,开源模型在成本效率方面的优势持续扩大。
3、官方评测
官方博客(qwen.ai/blog?id=qwe…)将Qwen3.6-Plus定位为"面向真实世界的Agent",并从语言能力和视觉语言能力两大维度展示了其评测成绩。
自然语言
官方指出,Qwen3.6通过深度融合推理、记忆与执行能力,在代码智能体、通用智能体和工具调用上都实现了全面跃升。
具体而言,官方展示的核心突破包括:
- 代码智能体(Coding Agent) : Qwen3.6-Plus展现出卓越的工程落地能力。不仅在主流代码修复基准(如SWE-bench Verified)上紧追行业标杆,更在复杂的终端操作与自动化任务执行中表现突出。
- 通用智能体与工具使用: 模型实现了显著突破,特别是在多个高难度的长程规划任务中取得最优成绩,并在各类工具调用基准上全面领先。
- 通用能力: 保持了顶尖水准,无论是高难度的 STEM 推理、超长上下文的精准信息提取,亦或是多语言环境的广泛适配,模型均在多项关键评测中刷新最佳表现。
视觉语言
在多模态能力上,Qwen3.6-Plus围绕推理能力增强、指令模式实用性提升以及复杂任务执行能力拓展三个方向进行了持续演进。
官方强调的核心能力演进与实测数据如下:
- 多模态推理能力提升: 模型在复杂文档理解、物理世界视觉理解、视频推理和视觉编程等任务上取得稳定提升,能够更有效地整合跨模态信息,并完成更复杂的分析与决策。
- 指令模式实用性优化: 结合真实业务场景,模型在指令遵从、疑难文字识别、万物识别、细粒度图像感知,以及真实场景理解中展现出更强的实用性与稳定性。
随着理解、推理与执行能力的不断融合,多模态能力的持续优化正在为复杂流程任务提供更完整的能力支撑。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear