阿里在推出Qwen3.5系列的第一款模型Qwen3.5-Plus之后,春节后就紧接着发布了中型模型系列,其中Qwen3.5-27B是该系列中的密集(Dense)模型——全部270亿参数在每次推理时全部激活,没有采用MoE机制。该模型延续了Qwen3.5的混合注意力架构,以3:1的比例交替使用Gated DeltaNet线性注意力层和标准全局注意力层,支持最高262K至1M的上下文窗口,基于Apache 2.0协议开源。
我们对其进行了全面评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现。需要说明的是,本次评测侧重于中文场景下的综合能力考察,而Qwen3.5-27B的原生多模态理解等,本次评测未能完全覆盖这些维度。
Qwen3.5-27B版本表现:
- 测试题数:约1.5万
- 总分(准确率):72.4%
- 平均耗时(每次调用):310s
- 平均token(每次调用消耗的token):5423
- 平均花费(每千次调用的人民币花费):25
1、以小博大
Qwen3.5-27B的官方基准测试将上一代的Qwen3-235B-A22B作为主要对比对象。乍一看,用270亿参数去挑战2350亿参数的前辈,似乎并不在同一量级。但这场"跨级别"对比的背后有一个关键事实:Qwen3-235B-A22B作为MoE模型,每次推理仅激活约220亿参数;而Qwen3.5-27B作为密集模型,全部270亿参数同时参与计算。两者的实际"活跃算力"相当接近,真正拉开差距的是代际架构演进和训练策略的升级。数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
整体性能显著提升,排名大幅跃升:新模型准确率从65.5%提升至72.4%,提升了6.9个百分点,排名从第51位跃升至第8位,跨越了43个名次。作为一个270亿参数的开源模型,能够在整体榜单前十占据一席,表现值得关注。
专业能力多维度提升,但存在明显取舍:从细分领域来看,Qwen3.5-27B在多数维度上实现了对前辈的超越,但并非全线进步。
- 法律与行政公务:从78.3%提升至83.7%(+5.4%),进步可观。
- 教育:从57.2%微升至57.9%(+0.7%),几乎没有变化,57.9%的绝对值在该维度中仍有较大的优化空间。
- 医疗与心理健康:从79.5%微降至79.4%(-0.1%),基本持平。
- 金融:从79.6%下降至75.9%(-3.7%),这是唯一出现明显回落的领域,表明模型在能力调整过程中存在一定取舍。
推理与数学计算提升明显:从72.0%提升至83.2%(+11.2%),提升显著,密集架构在数理推理上的优势得到了充分体现。
Agent与工具调用显著增强:提升幅度最大,从47.4%跃升至63.9%(+16.5%),这与Qwen3.5系列主打"原生智能体时代"的定位高度吻合。
成本大幅下降:每千次调用的费用从61.2元降至25元,成本下降约59%。这源于密集模型在部署和推理上的天然优势——不需要承载2350亿参数的庞大模型体积,服务成本显著更低。
响应时间明显延长:平均耗时从143s增加至310s,增幅约117%。Token消耗也从3422增至5423,增加了58%。较长的响应时间和更高的token消耗,表明模型内部可能引入了更深度的推理链,以"慢思考"换取更高质量的输出。
2、横向对比
在当前主流大模型竞争格局中,Qwen3.5-27B作为一个270亿参数的密集模型闯入前十,其竞争力几何?我们从三个维度进行横向对比分析:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比
- 在成本20-30元/千次的区间内,Qwen3.5-27B以72.4%的准确率和25元的成本,位列该档位的中上位置。同档位的Doubao-Seed-2.0-pro(76.5%,22.5元)和qwen3.5-plus(74.6%,22.9元)分别以高出4.1和2.2个百分点的优势领先,且成本更低。对于追求成本效率比的场景,这两者仍是更优选择。
- 不过,与同档位其他模型相比,Qwen3.5-27B的优势较为明显。对比DeepSeek-V3.1-Think(67.7%,24.8元)、qwen-plus-think-2025-07-28(67.5%,26元)和MiniMax-M2.5(65.7%,26.3元),准确率分别高出4.7、4.9和6.7个百分点,成本也基本相当或更低。
新旧模型对比
- 新一代模型继续主导榜单头部:前八名均为近期发布的新模型。Qwen3.5-27B以第8位的成绩挤入这一新模型阵营,表现出较强的代际竞争力。
- 阿里Qwen3.5家族内部层次分明:qwen3.5-plus(74.6%,第3位)领跑,Qwen3.5-122B-A10B(74.0%,第4位)紧随其后,Qwen3.5-27B(72.4%,第8位)位列第三梯队,qwen3.5-flash(70.8%,第19位)则提供更轻量的选择。四款模型覆盖了从旗舰到轻量的完整产品线。
开源VS闭源
- 开源阵营实力强劲:在开源模型中,Qwen3.5-27B排名第三,仅次于自家兄弟qwen3.5-plus(74.6%)和Qwen3.5-122B-A10B(74.0%)。紧随其后的是GLM-4.7(71.5%)、Kimi-K2.5-Thinking(71.3%)和GLM-5(71.0%)等模型。
- 开源模型集体施压闭源阵营:本次榜单中,开源模型的表现令人关注。Qwen3.5系列三款开源模型全部进入前十,加上qwen3.5-flash(70.8%,第19位)和DeepSeek-V3.2-Think(70.9%,第18位)等模型,开源力量在榜单中上游的存在感持续增强。
- 27B参数的独特价值:相比qwen3.5-plus和Qwen3.5-122B-A10B,Qwen3.5-27B的最大卖点在于其部署门槛——作为密集模型,量化后可在单张消费级显卡上运行,对于希望本地部署而非依赖API的开发者和企业而言,这是一个难以替代的优势。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear