阿里Qwen3.6-Max-Preview实测:闭源旗舰登顶总榜

0 阅读6分钟

阿里近期发布了新一代千问旗舰模型的早期预览版Qwen3.6-Max-Preview。官方定位为"新一代千问旗舰模型的早期预览版",核心升级方向集中在智能体编程、世界知识广度与准确性、以及指令遵循精度上。需要特别注意的是,此次Max-Preview版本采用闭源形式发布,不开放权重,仅通过阿里云百炼平台和Qwen Studio提供API服务。我们对其API版本进行了全面评测,测试其在准确率、响应时间、token消耗和花费等关键指标上的表现。需要说明的是,本次评测侧重中文场景下的综合能力考察。

qwen3.6-max-preview版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):75.4%
  • 平均耗时(每次调用):80s
  • 平均token(每次调用消耗的token):2789
  • 平均花费(每千次调用的人民币花费):139.2

1、新旧对决

对比上一代Max版本(qwen3-max-think-2026-01-23),qwen3.6-max-preview在准确率、响应效率和综合能力上均呈现出显著变化,数据如下:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位: 元/百万token

  • 总分显著提升,直接登顶:新版本准确率从69.3%提升至75.4%,提升了6.1个百分点,排名从第15位一跃至第1位,首次占据总榜榜首位置。
  • Coding维度提升最为显著:该维度从51.6%大幅提升至75.7%(+24.1%),是所有维度中进步幅度最大的,与官方宣称的"在SWE-bench Pro、Terminal-Bench 2.0等六项主要编程基准上取得最佳表现"的定位高度吻合。
  • 教育领域明显增强:从54.4%提升至63.2%(+8.8%),在知识广度类任务上的改善尤为明显,呼应了官方强调的"世界知识能力增强"。
  • 语言与指令遵从稳步提升:从65.5%提升至71.4%(+5.9%),与官方在ToolcallFormatIFBench指令遵循基准上的提升形成了相互印证。
  • 法律与行政公务有所改善:从80.3%提升至83.7%(+3.4%),在专业领域的表现进一步稳固。
  • 医疗与心理健康小幅提升:从83.6%提升至86.1%(+2.5%),保持在较高水准。
  • 推理与数学计算稳步提升:从79.9%提升至81.8%(+1.9%),整体处于较高水平。
  • 金融领域基本持平:从85.6%微升至86.5%(+0.9%),仍是该模型的强项领域。
  • Agent与工具调用出现回调:从68.6%降至65.2%(-3.4%),是所有维度中唯一出现下滑的方向。但官方在Agent相关基准(QwenClawBench等)上的官方数据表现亮眼,这一维度的回调值得后续版本迭代中持续关注。
  • 成本涨幅明显:输出价格从10.0元/M token大幅上调至54.0元/M token,每千次调用的花费从43.5元上升至139.2元,成本涨幅约220%。

2、横向对比

在当前主流大模型竞争格局中,qwen3.6-max-preview作为新晋总榜榜首,表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

  • 百元以上高端档位的新强者:在100-250元/千次的高端成本区间内,qwen3.6-max-preview(75.4%,139.2元)的表现处于该档位领先位置。同档位的gemini-3.1-pro-preview(75.2%,250.5元)与其总分仅差0.2个百分点,但平均单次调用花费高出近80%;gpt-5.4-high(72.6%,122.3元)在相近成本下准确率低2.8个百分点;claude-opus-4.6(70.0%,96.5元)虽然调用成本更低,但准确率差距明显。在百元以上高端档位中,qwen3.6-max-preview展现出较强的中文综合竞争力。
  • 向下看:需要客观指出的是,Doubao-Seed-2.0-pro(72.8%,22.5元)和qwen3.5-plus(73.3%,22.9元)以不到其六分之一的成本实现了相近的准确率。对于对成本敏感的场景,qwen3.6-max-preview并非首选;其核心价值更多体现在需要长程智能体编程、复杂指令遵循和高知识可靠性的高端商用场景。

新旧模型对比

  • 阿里Max产品线完成代际跃升:相比qwen3-max-think-2026-01-23(69.3%,43.5元),qwen3.6-max-preview实现了6.1个百分点的准确率提升,但调用成本也上涨了约220%。相比更早的qwen3-max-preview-think(64.2%)、qwen3-max-2025-09-23(63.5%)等多个历史版本,提升幅度更为显著。
  • 阿里产品线内部层次清晰:在当前阿里产品矩阵中,qwen3.6-max-preview(75.4%,139.2元)占据旗舰位置;qwen3.5-plus(73.3%,22.9元)作为开源主力,提供高性价比方案;Qwen3.5-122B-A10B(70.9%,32.3元)、qwen3.6-plus(70.7%,41.6元)、Qwen3.5-27B(70.6%,25元)构成中坚层;qwen3.5-flash(68.9%,10.4元)、Qwen3.6-35B-A3B(68.1%,40.5元)则覆盖轻量级和智能体编程场景。产品线呈现出从高端闭源旗舰到轻量开源模型的完整梯队。
  • 与其他厂商新一代旗舰的贴身竞争:在榜单前列,qwen3.6-max-preview(75.4%)、gemini-3.1-pro-preview(75.2%)、qwen3.5-plus(73.3%)、Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)等新一代旗舰模型形成了高度集中的第一梯队,榜首位置的竞争已进入白热化阶段。

开源VS闭源对比

  • 闭源阵营内的头部位置:在闭源商用模型中,qwen3.6-max-preview(75.4%)的准确率高于gemini-3.1-pro-preview(75.2%)、Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)、claude-opus-4.6(70.0%)等一众闭源旗舰,在闭源阵营的中文综合能力横向对比中占据了头部位置。
  • 对开源阵营的整体情况:作为闭源旗舰,qwen3.6-max-preview的75.4%准确率高于当前开源榜首qwen3.5-plus(73.3%)2.1个百分点,与Qwen3.5-122B-A10B(70.9%)、GLM-5.1(70.7%)、Qwen3.5-27B(70.6%)等主流开源模型的差距更为明显。在纯中文综合能力维度上,当前闭源旗舰对开源阵营仍保持一定的能力领先。

3、官方评测

根据官方发布的信息,Qwen3.6-Max-Preview作为新一代千问旗舰模型的早期预览版,在多个主流基准测试中取得了亮眼表现。

第三方权威评测表现

根据第三方评测机构Artificial Analysis的最新数据,Qwen3.6-Max-Preview在Artificial Analysis Intelligence Index v4.0综合评测中,在众多国际主流模型中排名前列,成为目前表现最佳的国产模型。该综合指数整合了GDPval-AA、τ²-Bench Telecom、Terminal-Bench Hard、SciCode、AA-LCR、AA-Omniscience、IFBench、Humanity's Last Exam、GPQA Diamond、CritPt等十项主流评测。

主流基准评测表现

相较于同系列的Qwen3.6-Plus,Qwen3.6-Max-Preview在智能体编程、世界知识和指令遵循三大方向均实现了显著提升:

  • 智能体编程突破:在SWE-bench Pro(57.3)、Terminal-Bench 2.0(65.4)、SkillsBench(55.6)、QwenClawBench(59.0)、QwenWebBench(1532 Elo)、SciCode(47.0)等六项主要编程基准上,预览模型均取得了参与对比模型中的最佳表现。
  • 世界知识增强:在SuperGPQA(73.9)和QwenChineseBench(84.0)知识类评测中,相较于Qwen3.6-Plus分别提升了2.3分和5.3分,反映出模型在学术级知识广度和中文知识掌握度上的同步增强。
  • 指令遵循提升:在ToolcallFormatIFBench(86.1)工具调用指令遵循基准上,相较于Qwen3.6-Plus提升了2.8分,在真实场景下的工具调用可靠性进一步增强。

目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear