Qwen3.5-122B-A10B是阿里Qwen3.5 Medium系列的开源模型,总参数量1220亿,每次前向传播仅激活100亿参数,采用256个专家的稀疏MoE架构。该模型同样基于Gated Delta Networks与稀疏混合专家的混合架构,支持文本、图像和视频输入。官方称其在纯文本任务上的效果可媲美Qwen3-Max,性能更优且成本更低;在多模态能力上,相比Qwen3-VL系列有显著提升。
我们对Qwen3.5-122B-A10B进行了全面的评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。需要说明的是,本次评测侧重中文场景下的综合能力考察,而Qwen3.5系列的核心亮点——包括原生多模态理解、视觉Agent操作(GUI自动化)、编程智能体以及搜索Agent等能力——在本次以文本为主的测试中并未能充分体现(多模态评测将在后续更新),其在上述前沿能力方向的实力,读者可参考文末的官方评测数据获得更全面的了解。
Qwen3.5-122B-A10B版本表现:
- 测试题数:约1.5万
- 总分(准确率):74.0%
- 平均耗时(每次调用):338s
- 平均token(每次调用消耗的token):5262
- 平均花费(每千次调用的人民币花费):32.3
1、对比Qwen3-Max
官方称在纯文本任务上可媲美Qwen3-Max,因此我们选取qwen3-max-think-2026-01-23作为参照。需要说明的是,两者并非同一产品线的迭代关系——Qwen3-Max是上一代旗舰级商用模型,而Qwen3.5-122B-A10B是新一代Medium级别的开源模型,数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
- 总分对比验证:Qwen3.5-122B-A10B以74.0%的准确率超过qwen3-max-think-2026-01-23的72.8%,高出1.2个百分点,排名也从第6位升至第4位。在我们的中文评测中,"小模型媲美大模型"的官方定位基本得到验证,甚至略有超越。
- 推理与数学计算能力显著提升:这是两者差距最大的维度,Qwen3.5-122B-A10B达到85.5%,qwen3-max-think-2026-01-23为79.9%,领先5.6个百分点。这与官方在GPQA Diamond(86.6)和HMMT数学竞赛(91.4)上的数据相呼应。
- 法律与行政公务领域表现突出:Qwen3.5-122B-A10B为84.7%,qwen3-max-think-2026-01-23为80.3%,领先4.4个百分点。
- 教育领域有所改善:Qwen3.5-122B-A10B为59.1%,qwen3-max-think-2026-01-23为54.4%,高出4.7个百分点,但该领域仍是各维度中的相对短板。
- 医疗与心理健康基本持平:Qwen3.5-122B-A10B为84.8%,qwen3-max-think-2026-01-23为84.3%,差距仅0.5个百分点,表现稳定。
- 部分领域存在小幅回调:金融领域qwen3-max-think-2026-01-23(85.6%)略优于Qwen3.5-122B-A10B(83.4%),差距2.2个百分点;agent与工具调用维度同样如此,qwen3-max-think-2026-01-23(68.6%)高于Qwen3.5-122B-A10B(65.0%),差距3.6个百分点。不过需要注意,Qwen3.5-122B-A10B在官方标准化Agent评测中表现优异,此处差异可能与我们的中文测试场景设计有关。
- 语言与指令遵从基本持平:Qwen3.5-122B-A10B为66.2%,qwen3-max-think-2026-01-23为65.5%,差距0.7个百分点。
- 响应速度偏慢:Qwen3.5-122B-A10B平均耗时338s,qwen3-max-think-2026-01-23为214s。这可能与模型部署环境配置及推理深度有关。
2、对比其他新模型
在当前主流大模型竞争格局中,Qwen3.5-122B-A10B表现如何?我们选择了具有代表性的模型进行横向对比分析:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比:
- 在30-35元/千次的区间内,Qwen3.5-122B-A10B以74.0%的准确率和32.3元的,处于该区间的领先位置。总分相近的gemini-3.1-pro-preview以74.8%的准确率排名第2,但成本达250.5元,两者在中文场景下的成本差距明显。
- 放宽至20-35元区间来看,qwen3.5-plus(74.6%,22.9元)以更低的成本实现了更高的准确率,Doubao-Seed-2.0-pro(76.5%,22.5元)同样具备较强竞争力。Qwen3.5-27B(72.4%,25元)成本相近但准确率低1.6个百分点。
新旧模型对比:
- Qwen3.5系列内部排列清晰:qwen3.5-plus(74.6%,第3位) > Qwen3.5-122B-A10B(74.0%,第4位) > Qwen3.5-27B(72.4%,第8位) > qwen3.5-flash(70.8%,第19位),从大杯到小杯呈现出稳步的性能梯度,产品线布局合理。
- 对比其他厂商的新模型:Qwen3.5-122B-A10B(74.0%)超过了GLM-4.7(71.5%,第13位)、GLM-5(71.0%,第16位)、ERNIE-5.0(70.9%,第17位)、DeepSeek-V3.2-Think(70.9%,第18位)等在榜主流模型,极具竞争力。
- 对比阿里上一代产品:相较qwen3-max-2025-09-23(66.8%,第43位)和qwen3-235b-a22b-thinking-2507(65.5%,第51位),Qwen3.5-122B-A10B的领先幅度分别达到7.2和8.5个百分点,代际进步显著。
开源VS闭源对比:
- 开源阵营前列:从总分来看,Qwen3.5-122B-A10B在开源模型中仅次于qwen3.5-plus(74.6%),排名第2,超过了GLM-4.7(71.5%)、Kimi-K2.5-Thinking(71.3%)、GLM-5(71.0%)、DeepSeek-V3.2-Think(70.9%)等开源模型。
- 比闭源模型同样出色:中文场景下,总分超过了gemini-3-pro-preview(72.5%,商用)、claude-opus-4.6(70.5%,商用)、gpt-5.1-high(69.7%,商用)等多个闭源模型。作为仅激活100亿参数的开源MoE模型,在综合排名中位列第4,体现了Qwen3.5系列在架构效率上的突破。
3、官方评测
根据Qwen官方(modelscope.cn/models/Qwen…
的数据,Qwen3.5-122B-A10B在多项基准上展现了接近甚至超越前代旗舰和同级竞品的表现。对比模型包括GPT-5-mini、GPT-OSS-120B、Qwen3-235B-A22B等。
-
知识与推理能力突出:MMLU-Pro达86.7,GPQA Diamond达86.6,均超过GPT-5-mini和Qwen3-235B-A22B;HMMT Feb 2025数学竞赛达91.4,在所有对比模型中最高。
-
编程与Agent能力为核心亮点:SWE-bench Verified达72.0(与GPT-5-mini持平),Terminal Bench 2达49.4(大幅领先GPT-5-mini的31.9);BFCL-V4函数调用达72.2,BrowseComp搜索Agent达63.8,均显著领先同级模型。
-
指令遵从与多语言方面同样稳健:IFBench达76.1,MMMLU达86.7,在各对比模型中均处于前列。
-
多模态视觉理解表现强劲:MMMU-Pro达76.9,OmniDocBench v1.5达89.8,OCRBench达92.1,MathVision达86.2,在Medium级别模型中均处于领先位置,部分指标超过了前代旗舰Qwen3-VL-235B-A22B。
-
视觉Agent能力值得关注:ScreenSpot Pro达70.4,OSWorld-Verified达58.0,展现了较强的GUI自动化操作能力。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear