阿里Qwen3.5-122B-A10B实测Qwen3.5-122B-A10B中文评测总分74.0%，超越前代旗舰，成本

Qwen3.5-122B-A10B是阿里Qwen3.5 Medium系列的开源模型，总参数量1220亿，每次前向传播仅激活100亿参数，采用256个专家的稀疏MoE架构。该模型同样基于Gated Delta Networks与稀疏混合专家的混合架构，支持文本、图像和视频输入。官方称其在纯文本任务上的效果可媲美Qwen3-Max，性能更优且成本更低；在多模态能力上，相比Qwen3-VL系列有显著提升。

我们对Qwen3.5-122B-A10B进行了全面的评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。需要说明的是，本次评测侧重中文场景下的综合能力考察，而Qwen3.5系列的核心亮点——包括原生多模态理解、视觉Agent操作（GUI自动化）、编程智能体以及搜索Agent等能力——在本次以文本为主的测试中并未能充分体现（多模态评测将在后续更新），其在上述前沿能力方向的实力，读者可参考文末的官方评测数据获得更全面的了解。

Qwen3.5-122B-A10B版本表现：

测试题数：约1.5万
总分（准确率）：74.0%
平均耗时（每次调用）：338s
平均token（每次调用消耗的token）：5262
平均花费（每千次调用的人民币花费）：32.3

1、对比Qwen3-Max

官方称在纯文本任务上可媲美Qwen3-Max，因此我们选取qwen3-max-think-2026-01-23作为参照。需要说明的是，两者并非同一产品线的迭代关系——Qwen3-Max是上一代旗舰级商用模型，而Qwen3.5-122B-A10B是新一代Medium级别的开源模型，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

总分对比验证：Qwen3.5-122B-A10B以74.0%的准确率超过qwen3-max-think-2026-01-23的72.8%，高出1.2个百分点，排名也从第6位升至第4位。在我们的中文评测中，"小模型媲美大模型"的官方定位基本得到验证，甚至略有超越。
推理与数学计算能力显著提升：这是两者差距最大的维度，Qwen3.5-122B-A10B达到85.5%，qwen3-max-think-2026-01-23为79.9%，领先5.6个百分点。这与官方在GPQA Diamond（86.6）和HMMT数学竞赛（91.4）上的数据相呼应。
法律与行政公务领域表现突出：Qwen3.5-122B-A10B为84.7%，qwen3-max-think-2026-01-23为80.3%，领先4.4个百分点。
教育领域有所改善：Qwen3.5-122B-A10B为59.1%，qwen3-max-think-2026-01-23为54.4%，高出4.7个百分点，但该领域仍是各维度中的相对短板。
医疗与心理健康基本持平：Qwen3.5-122B-A10B为84.8%，qwen3-max-think-2026-01-23为84.3%，差距仅0.5个百分点，表现稳定。
部分领域存在小幅回调：金融领域qwen3-max-think-2026-01-23（85.6%）略优于Qwen3.5-122B-A10B（83.4%），差距2.2个百分点；agent与工具调用维度同样如此，qwen3-max-think-2026-01-23（68.6%）高于Qwen3.5-122B-A10B（65.0%），差距3.6个百分点。不过需要注意，Qwen3.5-122B-A10B在官方标准化Agent评测中表现优异，此处差异可能与我们的中文测试场景设计有关。
语言与指令遵从基本持平：Qwen3.5-122B-A10B为66.2%，qwen3-max-think-2026-01-23为65.5%，差距0.7个百分点。
响应速度偏慢：Qwen3.5-122B-A10B平均耗时338s，qwen3-max-think-2026-01-23为214s。这可能与模型部署环境配置及推理深度有关。

2、对比其他新模型

在当前主流大模型竞争格局中，Qwen3.5-122B-A10B表现如何？我们选择了具有代表性的模型进行横向对比分析：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比：

在30-35元/千次的区间内，Qwen3.5-122B-A10B以74.0%的准确率和32.3元的，处于该区间的领先位置。总分相近的gemini-3.1-pro-preview以74.8%的准确率排名第2，但成本达250.5元，两者在中文场景下的成本差距明显。
放宽至20-35元区间来看，qwen3.5-plus（74.6%，22.9元）以更低的成本实现了更高的准确率，Doubao-Seed-2.0-pro（76.5%，22.5元）同样具备较强竞争力。Qwen3.5-27B（72.4%，25元）成本相近但准确率低1.6个百分点。

新旧模型对比：

Qwen3.5系列内部排列清晰：qwen3.5-plus（74.6%，第3位） > Qwen3.5-122B-A10B（74.0%，第4位） > Qwen3.5-27B（72.4%，第8位） > qwen3.5-flash（70.8%，第19位），从大杯到小杯呈现出稳步的性能梯度，产品线布局合理。
对比其他厂商的新模型：Qwen3.5-122B-A10B（74.0%）超过了GLM-4.7（71.5%，第13位）、GLM-5（71.0%，第16位）、ERNIE-5.0（70.9%，第17位）、DeepSeek-V3.2-Think（70.9%，第18位）等在榜主流模型，极具竞争力。
对比阿里上一代产品：相较qwen3-max-2025-09-23（66.8%，第43位）和qwen3-235b-a22b-thinking-2507（65.5%，第51位），Qwen3.5-122B-A10B的领先幅度分别达到7.2和8.5个百分点，代际进步显著。

开源VS闭源对比：

开源阵营前列：从总分来看，Qwen3.5-122B-A10B在开源模型中仅次于qwen3.5-plus（74.6%），排名第2，超过了GLM-4.7（71.5%）、Kimi-K2.5-Thinking（71.3%）、GLM-5（71.0%）、DeepSeek-V3.2-Think（70.9%）等开源模型。
比闭源模型同样出色：中文场景下，总分超过了gemini-3-pro-preview（72.5%，商用）、claude-opus-4.6（70.5%，商用）、gpt-5.1-high（69.7%，商用）等多个闭源模型。作为仅激活100亿参数的开源MoE模型，在综合排名中位列第4，体现了Qwen3.5系列在架构效率上的突破。

3、官方评测

根据Qwen官方（modelscope.cn/models/Qwen… 的数据，Qwen3.5-122B-A10B在多项基准上展现了接近甚至超越前代旗舰和同级竞品的表现。对比模型包括GPT-5-mini、GPT-OSS-120B、Qwen3-235B-A22B等。

知识与推理能力突出：MMLU-Pro达86.7，GPQA Diamond达86.6，均超过GPT-5-mini和Qwen3-235B-A22B；HMMT Feb 2025数学竞赛达91.4，在所有对比模型中最高。
编程与Agent能力为核心亮点：SWE-bench Verified达72.0（与GPT-5-mini持平），Terminal Bench 2达49.4（大幅领先GPT-5-mini的31.9）；BFCL-V4函数调用达72.2，BrowseComp搜索Agent达63.8，均显著领先同级模型。
指令遵从与多语言方面同样稳健：IFBench达76.1，MMMLU达86.7，在各对比模型中均处于前列。
多模态视觉理解表现强劲：MMMU-Pro达76.9，OmniDocBench v1.5达89.8，OCRBench达92.1，MathVision达86.2，在Medium级别模型中均处于领先位置，部分指标超过了前代旗舰Qwen3-VL-235B-A22B。
视觉Agent能力值得关注：ScreenSpot Pro达70.4，OSWorld-Verified达58.0，展现了较强的GUI自动化操作能力。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear

​阿里Qwen3.5-122B-A10B实测

阿里Qwen3.5-122B-A10B实测