阿里在Qwen3.6-Plus和Qwen3.6-35B-A3B之后,于4月22日正式开源了千问3.6系列的稠密模型——Qwen3.6-27B。这是一款270亿参数的稠密多模态模型,也是Qwen3.6系列目前唯一的稠密架构开源版本。官方对其定位非常明确:聚焦智能体编程能力,以27B的参数规模实现以往需要数百B大模型才能达到的代码智能体水平,并宣称在SWE-bench、Terminal-Bench 2.0、SkillsBench等多项编程基准上全面超越体量约15倍于自身的前代旗舰Qwen3.5-397B-A17B。本次评测侧重中文场景下的综合能力考察,覆盖教育、医疗、金融、法律、推理、语言指令、agent工具调用、编程等维度。
qwen3.6-27b版本表现:
- 测试题数:约1.5万
- 总分(准确率):68.8%
- 平均耗时(每次调用):62s
- 平均token(每次调用消耗的token):4275
- 平均花费(每千次调用的人民币花费):73.2
1、新旧版本对比
对比上一代同尺寸开源模型Qwen3.5-27B,qwen3.6-27b在中文综合评测下的表现呈现出明显的“取舍”特征——编程能力大幅增强,但部分通用维度出现回调,数据如下:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
*输出价格单位: 元/百万token
- 整体性能小幅回调:新版本总分从70.6%降至68.8%,下降1.8个百分点,排名从第15位回落至第23位。
- 编程能力显著提升(核心亮点) :coding维度从61.6%提升至68.3%,增幅达6.7个百分点,是所有维度中提升最大的一项。这与官方将Qwen3.6-27B定位为“智能体编程”模型的方向高度吻合。
- 部分垂直领域微增:教育从57.9%升至60.8%(+2.9%),医疗与心理健康从79.0%升至81.7%(+2.7%),显示模型在特定知识领域有所改善。
- 多个通用维度出现回调:推理与数学计算从83.2%降至76.6%(-6.6%),语言与指令遵从从67.6%降至59.7%(-7.9%),agent与工具调用从63.9%降至61.0%(-2.9%),金融从75.8%降至73.6%(-2.2%),法律与行政公务从83.7%降至82.0%(-1.7%)。其中推理和语言两项的回落较为明显,反映出新版本在能力分配上向编程任务做了倾斜。
- 响应时间大幅缩短:平均耗时从310s降至62s,降幅约80%,用户体验改善明显,新版本的输出更为精炼。
2、对比其他模型
在当前主流大模型竞争格局中,qwen3.6-27b作为主打智能体编程的开源稠密模型表现如何?我们从三个维度进行横向对比分析:
*数据来源:非线智能ReLE评测github.com/jeinlee1991…
同成本档位对比
- 在花费60-80元/千次的档位中,qwen3.6-27b(68.8%,73.2元)面对的对手包括Kimi-K2.5-Thinking(70.8%,77.1元)、GLM-5.1(70.7%,73.8元)、mimo-v2.5-pro(71.4%,64.3元)等。在该成本区间内,qwen3.6-27b的中文综合准确率不占优势,与mimo-v2.5-pro存在2.6个百分点差距,与Kimi-K2.5-Thinking存在2.0个百分点差距。
- 但需要指出的是,这一档位的花费数据反映的是API调用成本。由于qwen3.6-27b是开源模型,开发者完全可以通过单卡或双卡高端GPU实现本地部署,将单位成本压低至接近零边际成本——这是闭源同档位模型无法提供的部署灵活性。
- 向下看,同为开源的Qwen3.5-27B(70.6%,25元)以更低成本提供了更高准确率。
新旧模型对比
- 自身代际对比:相比Qwen3.5-27B(70.6%),qwen3.6-27b在中文综合评分上下降1.8个百分点,但在coding单项上提升6.7个百分点。这是一次明确的能力定向倾斜,而非全面进步。
- 阿里产品线内部矩阵:从开源27B尺寸视角看,阿里近期围绕该规格构建了清晰的产品矩阵——qwen3.6-max-preview(75.4%,第1位)领跑、qwen3.5-plus(73.3%,第4位,开源)、qwen3.6-plus(70.7%,第13位)、Qwen3.5-27B(70.6%,第15位)、qwen3.6-27b(68.8%,第23位)、Qwen3.6-35B-A3B(68.1%,第26位)。值得注意的是,同为Qwen3.6系列的35B-A3B(MoE,68.1%)与27B(稠密,68.8%)在中文综合评分上接近,差异主要体现在架构选择和具体任务类型上。
- 与同期其他厂商新模型对比:qwen3.6-27b(68.8%)与deepseek-v4-flash(68.8%)等近期发布的中端模型基本处于同一水平。
开源VS闭源对比
- 开源阵营定位:在开源模型阵营中,qwen3.6-27b(68.8%)位列中游。开源排名上,Qwen3.5-122B-A10B(70.9%)、Kimi-K2.5-Thinking(70.8%)、GLM-5.1(70.7%)、Qwen3.5-27B(70.6%)等均高于qwen3.6-27b的中文综合得分。
- 与闭源模型对比: qwen3.6-27b(68.8%)在中文综合分数上接近claude-opus-4.6(70.0%)、低于Doubao-Seed-2.0-mini(69.3%),但开源属性提供了闭源模型无法替代的本地化部署能力。
3、官方评测
根据阿里官方博客(qwen.ai/blog?id=qwe…
智能体编程能力(核心亮点)
官方数据显示,Qwen3.6-27B在多项反映真实智能体编程能力的权威基准上全面超越前代开源旗舰Qwen3.5-397B-A17B(参数量约为其15倍的MoE模型):
- SWE-bench Verified:77.2分
- Terminal-Bench 2.0:59.3分
- SkillsBench:48.2分
- SWE-bench Pro:53.5分
官方表示,Qwen3.6-27B的编程表现大幅超过Gemma4-31B、Qwen3.5-27B乃至体量15倍于自身的Qwen3.5-397B-A17B等开源模型,部分基准上可媲美Claude Opus 4.5等闭源模型。
目前所有大模型评测文章在公众号:大模型评测及优化NoneLinear