阿里最近推出了Qwen家族的新一代开源模型Qwen3.6-35B-A3B。官方将其定位为"体量轻巧、推理高效的稀疏混合专家(MoE)模型",核心升级方向集中在智能体编程能力和原生多模态任务上——Qwen3.6-35B-A3B总参数350亿,每次推理仅激活30亿参数,兼容OpenCLaw、Claude Code、Qwen Code等主流编程助手。我们对其API版本进行了全面评测,测试其在准确率、响应时间、token消耗和花费等关键指标上的表现。
需要说明的是,本轮评测在原有维度基础上新增了coding维度,总榜整体评分体系较此前有所调整,新旧榜单的总分与排名不可直接对照。此外,本次评测侧重中文场景下的综合能力考察,Qwen3.6-35B-A3B此次迭代的核心发力点——低激活参数下的原生多模态、空间智能等能力,读者可参考文末的官方评测数据获得更全面的了解。
Qwen3.6-35B-A3B版本表现:
- 测试题数:约1.5万
- 总分(准确率):68.1%
- 平均耗时(每次调用):81s
- 平均token(每次调用消耗的token):3965
- 平均花费(每千次调用的人民币花费):40.5
1、新旧对决
对比上一代版本(qwen3.5-flash),Qwen3.6-35B-A3B在推理策略、响应速度和资源消耗等方面均出现了明显的重新取舍,数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
- 总分小幅回调:新版本准确率从68.9%下调至68.1%,下降了0.8个百分点,排名从第17位降至第19位。
- 医疗与心理健康明显增强:该维度从80.7%提升至82.9%(+2.2%),是本次变化中提升显著的维度之一,反映出模型在医学知识和心理咨询场景下的应答质量有所改善。
- 法律与行政公务稳步提升:该维度从80.3%提升至82.7%(+2.4%),进一步巩固了在专业领域的表现。
- 语言与指令遵从有所增强:从66.5%提升至68.6%(+2.1%),在复杂中文指令的理解和遵从上有小幅改善。
- 教育领域基本持平:从56.5%微幅变动至56.6%(+0.1%),几乎没有变化,仍是该模型的相对短板。
- Agent与工具调用基本持平:从62.9%微调至62.7%(-0.2%),表现稳定,几乎无变化。
- Coding维度首次纳入评测:新模型的coding维度得分为56.6%,低于qwen3.5-flash的58.9%(-2.3%)。
- 推理与数学计算出现回调:从79.0%降至74.8%(-4.2%),这一维度的下滑较为明显,是总分下调的主要拖累项之一。
- 金融领域回调最为明显:从77.1%降至72.1%(-5.0%),降幅在所有维度中最大,金融场景下的专业问答能力出现一定程度的弱化。
- 响应时间大幅缩短:平均耗时从344s大幅缩短至81s,降幅约76%。结合token消耗从5414降至3965(-26.8%),可以看出新模型在推理链路上做了显著的效率优化,用户侧的等待时间大幅改善——这也与官方强调的"推理高效"定位相呼应。
- Token消耗下降但单次成本上升:输出价格从2.0元/M token大幅上调至10.8元/M token,即便token消耗有所下降,每千次调用的花费仍从10.4元上升至40.5元,成本涨幅约289%。这一"提价"策略背后,或许反映了阿里对该版本在智能体编程等高价值场景中商业价值的重新定位,而非单纯面向低成本推理的轻量级替代方案。
2、横向对比
在当前主流大模型竞争格局中,Qwen3.6-35B-A3B作为一款主打"极致性价比"和智能体编程能力的轻量级开源模型,表现如何?我们从三个维度进行横向对比分析:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比
- 40元档位内处于中游:在35-50元/千次的成本区间内,Qwen3.6-35B-A3B(68.1%,40.5元)的表现处于中游水平。同档位的qwen3.6-plus(70.7%,41.6元)以相近的成本提供了高出2.6个百分点的准确率;qwen3-max-think-2026-01-23(69.3%,43.5元)也略高1.2个百分点。
- 向下看存在成本效率比压力:DeepSeek-V3.2-Think(66.9%,7.5元)以不到五分之一的成本实现了相近的准确率;Doubao-Seed-2.0-lite(70.5%,5.4元)则以更低的成本取得了更高的准确率。在纯中文综合能力的横向对比中,Qwen3.6-35B-A3B在成本维度上并不占优。
新旧模型对比
- 相对前代的总分小幅下调:相比qwen3.5-flash(68.9%),Qwen3.6-35B-A3B(68.1%)在新评测体系下小幅回调0.8个百分点。考虑到评测体系新增了coding维度,这一对比更多体现的是两代模型在新评价框架下的相对定位。从单次调用成本来看,新版本的花费(40.5元)已是上一代(10.4元)的近四倍,模型的商业定位出现了明显的上移。
- 阿里开源产品线内部梯队清晰:在当前阿里开源模型矩阵中,qwen3.5-plus(73.3%,22.9元)和Qwen3.5-122B-A10B(70.9%,32.3元)占据头部位置,Qwen3.5-27B(70.6%,25元)、qwen3.5-flash(68.9%,10.4元)处于中段,Qwen3.6-35B-A3B(68.1%,40.5元)与qwen3.5-flash在准确率上接近但成本显著上移。从参数规模和官方定位来看,Qwen3.6-35B-A3B更像是面向智能体编程和原生多模态场景的专用迭代版本,与通用型的qwen3.5-flash存在差异化分工,两者之间并非简单的替代关系。
- 与其他厂商新模型对比:在榜单前列,gemini-3.1-pro-preview(75.2%)、qwen3.5-plus(73.3%)、Doubao-Seed-2.0-pro(72.8%)等新一代模型已占据头部位置。Qwen3.6-35B-A3B(68.1%)与hunyuan-2.0-thinking-20251109(68.6%)、GLM-4.7(67.3%)、ERNIE-5.0(67.2%)等同期模型处于相近区间,属于中上游水平。
开源VS闭源对比
- 开源阵营内排名中段:在开源模型中,Qwen3.6-35B-A3B位列qwen3.5-plus(73.3%)、GLM-5.1(70.7%)、Qwen3.5-122B-A10B(70.9%)、Qwen3.5-27B(70.6%)、Kimi-K2.5-Thinking(68.9%)、qwen3.5-flash(68.9%)之后,在开源模型梯队中处于中段位置。
- 以小搏大,对齐多款闭源模型:值得关注的是,作为一款仅激活30亿参数的轻量级开源模型,Qwen3.6-35B-A3B的68.1%准确率与gpt-5.2-high(67.3%,94.1元)、gpt-5.1-high(67.1%,180元)等多款闭源模型处于相近区间,且参数规模和部署灵活性远优于上述模型。
- 生态价值补充:除准确率之外,Qwen3.6-35B-A3B完全开源,权重已上架Hugging Face和ModelScope,支持本地部署,并兼容OpenCLaw、Claude Code、Qwen Code等主流编程助手——其生态灵活性和本地化部署能力是闭源商用模型难以直接对标的。对于注重可控性和编程智能体场景的开发者而言,这是另一维度的竞争力。
3、官方评测
Qwen3.6此次迭代的核心升级集中在智能体编程能力和原生多模态推理两个方向,以下为官方公布的评测数据:
智能体编程能力
仅凭 30 亿激活参数,Qwen3.6-35B-A3B 在多项关键编程基准上显著提升并超越了 270 亿参数的稠密模型。在代码生成、终端操作与多步任务规划等场景中,展现出极强的项目结构理解力和工具调用能力。
原生多模态能力
在多数视觉语言基准上与主流闭源模型表现相近,部分任务上实现超越。模型在空间智能方面表现尤为突出,在 RefCOCO 上得分 92.0,在 ODInW13 上达到 50.8,目标定位与空间关系理解能力在线。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear