阿里Qwen3.5-Flash实测qwen3.5-flash评测：准确率70.8%排名第19，较前代提升6.8个百分点，

阿里在推出Qwen3.5系列的第一款模型Qwen3.5-Plus之后，继续向下延伸产品线，在阿里云百炼平台上线了Qwen3.5-Flash。该模型基于开源的Qwen3.5-35B-A3B增强而来，采用与旗舰版相同的混合架构——线性注意力与稀疏混合专家（MoE）相结合，总参数量35B，每次前向传播仅激活3B参数。作为Qwen3.5家族中面向性价比场景的轻量级成员，它的定位是在有限的参数预算下尽可能逼近大模型的能力上限。

我们对qwen3.5-flash进行了全面评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。需要说明的是，本次评测侧重中文场景下的综合能力考察，而Qwen3.5系列的核心亮点还包括原生多模态理解、视觉Agent操作（GUI自动化）等能力，在当前评测框架下未能充分体现，读者可结合官方评测数据做更全面的判断。

qwen3.5-flash版本表现：

测试题数：约1.5万
总分（准确率）：70.8%
平均耗时（每次调用）：344s
平均token（每次调用消耗的token）：5414
平均花费（每千次调用的人民币花费）：10.4

1、新旧版本对比

对比上个版本（qwen-flash-think-2025-07-28），qwen3.5-flash的变化不仅体现在分数的提升，更反映出底层推理机制的重大调整，数据如下：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

*输出价格单位：元/百万token

整体性能显著提升：新版本准确率从64.0%提升至70.8%，提升了6.8个百分点，排名从第65位跃升至第19位，前进了46个名次，跻身榜单前二十。

推理与数学计算提升最为突出：该维度从64.3%提升至79.0%（+14.7%），是所有维度中进步幅度最大的，表明新模型在逻辑推演和数理计算方面获得了质的增强。

垂直领域普遍强化：从细分领域来看，新版本在多个专业维度上实现了较大幅度的提升。

医疗与心理健康：从70.8%提升至81.3%（+10.5%），改善幅度可观。
教育：从46.7%提升至56.5%（+9.8%），虽然绝对值仍有提升空间，但进步明显。
法律与行政公务：从72.7%提升至80.3%（+7.6%），进入较高水准。
金融：从71.5%提升至77.2%（+5.7%），表现稳健。

Agent与工具调用：从57.8%提升至62.9%（+5.1%），有所改善但仍属中游水平。

语言与指令遵从小幅回调：值得注意的是，该维度从68.0%下降至66.5%（-1.5%），是唯一出现下滑的领域。这可能反映了模型在优化推理深度的过程中，对复杂指令的精细遵从能力存在一定的取舍。

响应时间大幅延长：平均耗时从69s增加至344s，增幅约399%。结合token消耗从3292增至5414（+64.5%），这强烈暗示模型内部引入了更深层的推理链路——它不再追求"秒回"，而是用更长的"思考时间"换取更高的准确率。

成本有所上升但仍在可控范围：每千次调用费用从4.6元增加至10.4元，增幅约126%。输出价格从1.5元/M token上调至2.0元/M token。虽然成本翻倍有余，但考虑到6.8个百分点的准确率提升和排名的大幅跃进，这一"以算力换智能"的策略在实际应用中有其合理性。

2、对比其他模型

在当前主流大模型竞争格局中，qwen3.5-flash作为一款轻量级模型表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测github.com/jeinlee1991…

同成本档位对比

10元档位的领跑者：在8-12元/千次的成本区间内，qwen3.5-flash以70.8%的准确率位居该档位首位。同区间的hunyuan-t1-20250711（67.3%，9.9元）和step-3.5-flash（64.2%，9.8元）分别落后3.5和6.6个百分点，grok-4-1-fast-reasoning（64.3%，8.1元）同样存在较大差距。在该价格段内，qwen3.5-flash具备明显的性价比优势。
向上对标需直面压力：将视野扩展到更高成本区间，Doubao-Seed-2.0-lite（73.9%，5.4元）以更低的价格提供了更高的准确率；DeepSeek-V3.2-Think（70.9%，7.5元）在准确率相当的情况下成本更低。这意味着qwen3.5-flash虽在自身档位领先，但在广义的"成本效率比竞赛"中仍面临来自豆包和深度求索系列的竞争压力。

新旧模型对比

新一代模型全面占据头部：榜单前列已被近期发布的新模型包揽。Doubao-Seed-2.0-pro（76.5%）领衔，gemini-3.1-pro-preview（74.8%）、qwen3.5-plus（74.6%）紧随其后，显示出新一轮模型迭代的整体成效。
Qwen3.5家族矩阵已成规模：数据显示阿里已构建起覆盖多层次需求的产品线——旗舰级qwen3.5-plus（74.6%，22.9元），中高端Qwen3.5-122B-A10B（74.0%，32.3元），中端Qwen3.5-27B（72.4%，25元），再到轻量级qwen3.5-flash（70.8%，10.4元），形成了从高性能到高性价比的完整覆盖。
代际提升效果显著：对比前代qwen-flash-think-2025-07-28（64.0%，排名65），qwen3.5-flash实现了6.8个百分点的提升，排名前进46位。即便与阿里自家的qwen3-max-2026-01-23（67.6%，排名34）和qwen3-235b-a22b-thinking-2507（65.5%，排名51）相比，qwen3.5-flash也以更低的成本实现了更高的准确率。

开源VS闭源对比

以小搏大，超越多款闭源旗舰：中文场景下，从总分来看，qwen3.5-flash的70.8%准确率超过了claude-opus-4.6（70.5%，96.5元）、gpt-5.1-high（69.7%，180元）、gpt-5.1-medium（69.3%，87.9元）以及o4-mini（69.0%，40.3元）等多款闭源商用模型，且调用成本仅为它们的零头。
开源阵营内排名中游：在开源模型中，qwen3.5-flash位列第8位，排在qwen3.5-plus（74.6%）、Qwen3.5-122B-A10B（74.0%）、Qwen3.5-27B（72.4%）、GLM-4.7（71.5%）、Kimi-K2.5-Thinking（71.3%）、GLM-5（71.0%）和DeepSeek-V3.2-Think（70.9%）之后。考虑到其参数规模，这一排位已属不易，但也说明在开源生态中，更大参数量的模型仍保持着能力优势。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear