阿里Qwen3.6-Max-Preview实测：闭源旗舰登顶总榜阿里全新旗舰模型闭源发布！最新评测揭秘其问鼎巅峰的真实实

阿里近期发布了新一代千问旗舰模型的早期预览版Qwen3.6-Max-Preview。官方定位为"新一代千问旗舰模型的早期预览版"，核心升级方向集中在智能体编程、世界知识广度与准确性、以及指令遵循精度上。需要特别注意的是，此次Max-Preview版本采用闭源形式发布，不开放权重，仅通过阿里云百炼平台和Qwen Studio提供API服务。我们对其API版本进行了全面评测，测试其在准确率、响应时间、token消耗和花费等关键指标上的表现。需要说明的是，本次评测侧重中文场景下的综合能力考察。

qwen3.6-max-preview版本表现：

测试题数：约1.5万
总分（准确率）：75.4%
平均耗时（每次调用）：80s
平均token（每次调用消耗的token）：2789
平均花费（每千次调用的人民币花费）：139.2

1、新旧对决

对比上一代Max版本（qwen3-max-think-2026-01-23），qwen3.6-max-preview在准确率、响应效率和综合能力上均呈现出显著变化，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

总分显著提升，直接登顶：新版本准确率从69.3%提升至75.4%，提升了6.1个百分点，排名从第15位一跃至第1位，首次占据总榜榜首位置。
Coding维度提升最为显著：该维度从51.6%大幅提升至75.7%（+24.1%），是所有维度中进步幅度最大的，与官方宣称的"在SWE-bench Pro、Terminal-Bench 2.0等六项主要编程基准上取得最佳表现"的定位高度吻合。
教育领域明显增强：从54.4%提升至63.2%（+8.8%），在知识广度类任务上的改善尤为明显，呼应了官方强调的"世界知识能力增强"。
语言与指令遵从稳步提升：从65.5%提升至71.4%（+5.9%），与官方在ToolcallFormatIFBench指令遵循基准上的提升形成了相互印证。
法律与行政公务有所改善：从80.3%提升至83.7%（+3.4%），在专业领域的表现进一步稳固。
医疗与心理健康小幅提升：从83.6%提升至86.1%（+2.5%），保持在较高水准。
推理与数学计算稳步提升：从79.9%提升至81.8%（+1.9%），整体处于较高水平。
金融领域基本持平：从85.6%微升至86.5%（+0.9%），仍是该模型的强项领域。
Agent与工具调用出现回调：从68.6%降至65.2%（-3.4%），是所有维度中唯一出现下滑的方向。但官方在Agent相关基准（QwenClawBench等）上的官方数据表现亮眼，这一维度的回调值得后续版本迭代中持续关注。
成本涨幅明显：输出价格从10.0元/M token大幅上调至54.0元/M token，每千次调用的花费从43.5元上升至139.2元，成本涨幅约220%。

2、横向对比

在当前主流大模型竞争格局中，qwen3.6-max-preview作为新晋总榜榜首，表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

百元以上高端档位的新强者：在100-250元/千次的高端成本区间内，qwen3.6-max-preview（75.4%，139.2元）的表现处于该档位领先位置。同档位的gemini-3.1-pro-preview（75.2%，250.5元）与其总分仅差0.2个百分点，但平均单次调用花费高出近80%；gpt-5.4-high（72.6%，122.3元）在相近成本下准确率低2.8个百分点；claude-opus-4.6（70.0%，96.5元）虽然调用成本更低，但准确率差距明显。在百元以上高端档位中，qwen3.6-max-preview展现出较强的中文综合竞争力。
向下看：需要客观指出的是，Doubao-Seed-2.0-pro（72.8%，22.5元）和qwen3.5-plus（73.3%，22.9元）以不到其六分之一的成本实现了相近的准确率。对于对成本敏感的场景，qwen3.6-max-preview并非首选；其核心价值更多体现在需要长程智能体编程、复杂指令遵循和高知识可靠性的高端商用场景。

新旧模型对比

阿里Max产品线完成代际跃升：相比qwen3-max-think-2026-01-23（69.3%，43.5元），qwen3.6-max-preview实现了6.1个百分点的准确率提升，但调用成本也上涨了约220%。相比更早的qwen3-max-preview-think（64.2%）、qwen3-max-2025-09-23（63.5%）等多个历史版本，提升幅度更为显著。
阿里产品线内部层次清晰：在当前阿里产品矩阵中，qwen3.6-max-preview（75.4%，139.2元）占据旗舰位置；qwen3.5-plus（73.3%，22.9元）作为开源主力，提供高性价比方案；Qwen3.5-122B-A10B（70.9%，32.3元）、qwen3.6-plus（70.7%，41.6元）、Qwen3.5-27B（70.6%，25元）构成中坚层；qwen3.5-flash（68.9%，10.4元）、Qwen3.6-35B-A3B（68.1%，40.5元）则覆盖轻量级和智能体编程场景。产品线呈现出从高端闭源旗舰到轻量开源模型的完整梯队。
与其他厂商新一代旗舰的贴身竞争：在榜单前列，qwen3.6-max-preview（75.4%）、gemini-3.1-pro-preview（75.2%）、qwen3.5-plus（73.3%）、Doubao-Seed-2.0-pro（72.8%）、gpt-5.4-high（72.6%）等新一代旗舰模型形成了高度集中的第一梯队，榜首位置的竞争已进入白热化阶段。

开源VS闭源对比

闭源阵营内的头部位置：在闭源商用模型中，qwen3.6-max-preview（75.4%）的准确率高于gemini-3.1-pro-preview（75.2%）、Doubao-Seed-2.0-pro（72.8%）、gpt-5.4-high（72.6%）、claude-opus-4.6（70.0%）等一众闭源旗舰，在闭源阵营的中文综合能力横向对比中占据了头部位置。
对开源阵营的整体情况：作为闭源旗舰，qwen3.6-max-preview的75.4%准确率高于当前开源榜首qwen3.5-plus（73.3%）2.1个百分点，与Qwen3.5-122B-A10B（70.9%）、GLM-5.1（70.7%）、Qwen3.5-27B（70.6%）等主流开源模型的差距更为明显。在纯中文综合能力维度上，当前闭源旗舰对开源阵营仍保持一定的能力领先。

3、官方评测

根据官方发布的信息，Qwen3.6-Max-Preview作为新一代千问旗舰模型的早期预览版，在多个主流基准测试中取得了亮眼表现。

第三方权威评测表现

根据第三方评测机构Artificial Analysis的最新数据，Qwen3.6-Max-Preview在Artificial Analysis Intelligence Index v4.0综合评测中，在众多国际主流模型中排名前列，成为目前表现最佳的国产模型。该综合指数整合了GDPval-AA、τ²-Bench Telecom、Terminal-Bench Hard、SciCode、AA-LCR、AA-Omniscience、IFBench、Humanity's Last Exam、GPQA Diamond、CritPt等十项主流评测。

主流基准评测表现

相较于同系列的Qwen3.6-Plus，Qwen3.6-Max-Preview在智能体编程、世界知识和指令遵循三大方向均实现了显著提升：

智能体编程突破：在SWE-bench Pro（57.3）、Terminal-Bench 2.0（65.4）、SkillsBench（55.6）、QwenClawBench（59.0）、QwenWebBench（1532 Elo）、SciCode（47.0）等六项主要编程基准上，预览模型均取得了参与对比模型中的最佳表现。
世界知识增强：在SuperGPQA（73.9）和QwenChineseBench（84.0）知识类评测中，相较于Qwen3.6-Plus分别提升了2.3分和5.3分，反映出模型在学术级知识广度和中文知识掌握度上的同步增强。
指令遵循提升：在ToolcallFormatIFBench（86.1）工具调用指令遵循基准上，相较于Qwen3.6-Plus提升了2.8分，在真实场景下的工具调用可靠性进一步增强。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear