阿里在推出Qwen3.5系列的第一款模型Qwen3.5-Plus之后,继续向下延伸产品线,在阿里云百炼平台上线了Qwen3.5-Flash。该模型基于开源的Qwen3.5-35B-A3B增强而来,采用与旗舰版相同的混合架构——线性注意力与稀疏混合专家(MoE)相结合,总参数量35B,每次前向传播仅激活3B参数。作为Qwen3.5家族中面向性价比场景的轻量级成员,它的定位是在有限的参数预算下尽可能逼近大模型的能力上限。
我们对qwen3.5-flash进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。需要说明的是,本次评测侧重中文场景下的综合能力考察,而Qwen3.5系列的核心亮点还包括原生多模态理解、视觉Agent操作(GUI自动化)等能力,在当前评测框架下未能充分体现,读者可结合官方评测数据做更全面的判断。
qwen3.5-flash版本表现:
- 测试题数:约1.5万
- 总分(准确率):70.8%
- 平均耗时(每次调用):344s
- 平均token(每次调用消耗的token):5414
- 平均花费(每千次调用的人民币花费):10.4
1、新旧版本对比
对比上个版本(qwen-flash-think-2025-07-28),qwen3.5-flash的变化不仅体现在分数的提升,更反映出底层推理机制的重大调整,数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
整体性能显著提升:新版本准确率从64.0%提升至70.8%,提升了6.8个百分点,排名从第65位跃升至第19位,前进了46个名次,跻身榜单前二十。
推理与数学计算提升最为突出:该维度从64.3%提升至79.0%(+14.7%),是所有维度中进步幅度最大的,表明新模型在逻辑推演和数理计算方面获得了质的增强。
垂直领域普遍强化:从细分领域来看,新版本在多个专业维度上实现了较大幅度的提升。
-
医疗与心理健康:从70.8%提升至81.3%(+10.5%),改善幅度可观。
-
教育:从46.7%提升至56.5%(+9.8%),虽然绝对值仍有提升空间,但进步明显。
-
法律与行政公务:从72.7%提升至80.3%(+7.6%),进入较高水准。
-
金融:从71.5%提升至77.2%(+5.7%),表现稳健。
Agent与工具调用:从57.8%提升至62.9%(+5.1%),有所改善但仍属中游水平。
语言与指令遵从小幅回调:值得注意的是,该维度从68.0%下降至66.5%(-1.5%),是唯一出现下滑的领域。这可能反映了模型在优化推理深度的过程中,对复杂指令的精细遵从能力存在一定的取舍。
响应时间大幅延长:平均耗时从69s增加至344s,增幅约399%。结合token消耗从3292增至5414(+64.5%),这强烈暗示模型内部引入了更深层的推理链路——它不再追求"秒回",而是用更长的"思考时间"换取更高的准确率。
成本有所上升但仍在可控范围:每千次调用费用从4.6元增加至10.4元,增幅约126%。输出价格从1.5元/M token上调至2.0元/M token。虽然成本翻倍有余,但考虑到6.8个百分点的准确率提升和排名的大幅跃进,这一"以算力换智能"的策略在实际应用中有其合理性。
2、对比其他模型
在当前主流大模型竞争格局中,qwen3.5-flash作为一款轻量级模型表现如何?我们从三个维度进行横向对比分析:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比
- 10元档位的领跑者:在8-12元/千次的成本区间内,qwen3.5-flash以70.8%的准确率位居该档位首位。同区间的hunyuan-t1-20250711(67.3%,9.9元)和step-3.5-flash(64.2%,9.8元)分别落后3.5和6.6个百分点,grok-4-1-fast-reasoning(64.3%,8.1元)同样存在较大差距。在该价格段内,qwen3.5-flash具备明显的性价比优势。
- 向上对标需直面压力:将视野扩展到更高成本区间,Doubao-Seed-2.0-lite(73.9%,5.4元)以更低的价格提供了更高的准确率;DeepSeek-V3.2-Think(70.9%,7.5元)在准确率相当的情况下成本更低。这意味着qwen3.5-flash虽在自身档位领先,但在广义的"成本效率比竞赛"中仍面临来自豆包和深度求索系列的竞争压力。
新旧模型对比
- 新一代模型全面占据头部:榜单前列已被近期发布的新模型包揽。Doubao-Seed-2.0-pro(76.5%)领衔,gemini-3.1-pro-preview(74.8%)、qwen3.5-plus(74.6%)紧随其后,显示出新一轮模型迭代的整体成效。
- Qwen3.5家族矩阵已成规模:数据显示阿里已构建起覆盖多层次需求的产品线——旗舰级qwen3.5-plus(74.6%,22.9元),中高端Qwen3.5-122B-A10B(74.0%,32.3元),中端Qwen3.5-27B(72.4%,25元),再到轻量级qwen3.5-flash(70.8%,10.4元),形成了从高性能到高性价比的完整覆盖。
- 代际提升效果显著:对比前代qwen-flash-think-2025-07-28(64.0%,排名65),qwen3.5-flash实现了6.8个百分点的提升,排名前进46位。即便与阿里自家的qwen3-max-2026-01-23(67.6%,排名34)和qwen3-235b-a22b-thinking-2507(65.5%,排名51)相比,qwen3.5-flash也以更低的成本实现了更高的准确率。
开源VS闭源对比
- 以小搏大,超越多款闭源旗舰:中文场景下,从总分来看,qwen3.5-flash的70.8%准确率超过了claude-opus-4.6(70.5%,96.5元)、gpt-5.1-high(69.7%,180元)、gpt-5.1-medium(69.3%,87.9元)以及o4-mini(69.0%,40.3元)等多款闭源商用模型,且调用成本仅为它们的零头。
- 开源阵营内排名中游:在开源模型中,qwen3.5-flash位列第8位,排在qwen3.5-plus(74.6%)、Qwen3.5-122B-A10B(74.0%)、Qwen3.5-27B(72.4%)、GLM-4.7(71.5%)、Kimi-K2.5-Thinking(71.3%)、GLM-5(71.0%)和DeepSeek-V3.2-Think(70.9%)之后。考虑到其参数规模,这一排位已属不易,但也说明在开源生态中,更大参数量的模型仍保持着能力优势。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear