🚀 Qwen3.6-35B-A3B 正式发布!MoE架构实现"以小博大",轻量高效成开源新标杆

5 阅读7分钟

🚀 Qwen3.6-35B-A3B 正式发布!MoE架构实现"以小博大",轻量高效成开源新标杆

北京时间 2026 年 4 月 16 日,阿里巴巴千问大模型团队正式开源了其新一代稀疏混合专家(MoE)模型 Qwen3.6-35B-A3B。这款模型以350亿总参数、仅激活30亿参数的独特架构,在智能体编程、多模态理解等领域展现出惊人的性能,迅速成为全球 AI 社区关注的焦点。

💎 模型亮点速览

  • "以小博大",效率至上:总参数高达 350 亿,但每次推理仅激活 30 亿 参数。这意味着运行它的算力消耗,大概只相当于一个 3B 稠密模型,但能力却能超越许多 27B、31B 的稠密大模型。
  • 智能体编程能力跃升:Qwen3.6 在 SWE-bench ProTerminal-Bench 2.0 等核心编程基准测试中,大幅超越前代模型及同类开源模型,部分指标甚至超越了某些闭源旗舰模型。
  • 原生多模态,空间智能出众:模型内置视觉编码器,在视觉问答和空间智能方面的表现卓越,RefCOCO 评分高达 92.0,部分多模态指标已比肩 Claude Sonnet 4.5。
  • 超长上下文,处理长程任务:原生支持 262,144 tokens 的超长上下文,并可扩展至 1,010,000 tokens,足以处理整个代码仓库或长篇小说。
  • 开源协议Apache 2.0,允许商业使用。

⚙️ 核心参数与架构

Qwen3.6-35B-A3B 采用了先进的 MoE(混合专家)架构,其内部包含 256 个专家网络,每次推理仅激活 8 个路由专家 + 1 个共享专家。这使得模型在拥有巨大知识容量的同时,保持了极高的推理效率。

参数项
总参数量350 亿
激活参数量30 亿
架构类型稀疏 MoE (混合专家)
层数40
隐藏层维度2048
专家数量256
激活专家数8 (路由) + 1 (共享)
上下文长度262,144 tokens (原生,可扩展至1,010,000)
词表大小248,320
开源协议Apache 2.0

数据来源:Hugging Face 官方模型页面

📊 性能评测:全面超越同级选手

官方发布的基准测试数据显示,Qwen3.6-35B-A3B 在同级别模型中表现极为出色,尤其是在智能体编程和复杂任务处理上,展现出了越级的实力。

评测基准Qwen3.5-27BGemma4-31BQwen3.5-35BA3BQwen3.6-35BA3B
SWE-bench Verified75.052.070.073.4
SWE-bench Multilingual69.351.760.367.2
SWE-bench Pro51.235.744.649.5
Terminal-Bench 2.041.642.940.551.5
Claw-Eval Avg64.348.565.468.7
Claw-Eval Pass^346.225.051.050.0
SkillsBench Avg527.223.64.428.7
QwenClawBench52.241.747.752.6
NL2Repo27.315.520.529.4
QwenWebBench106811979781397
TAU3-Bench68.467.568.967.2
VITA-Bench41.8--41.8

数据来源:Hugging Face 官方模型页面

从数据中可以清晰地看到,Qwen3.6-35B-A3B 在绝大多数编程与智能体相关的基准测试中都处于领先地位。特别是在 Terminal-Bench 2.0(终端编程)和 QwenWebBench(前端代码生成)上,提升幅度尤为显著,意味着它在处理复杂的终端任务和生成高质量前端代码方面有了质的飞跃。

💡 性能表现深度分析

1. 智能体编程:30亿激活参数如何"以下犯上"?

SWE-bench Pro这一硬核编程基准测试中,Qwen3.6-35B-A3B的得分从上代的53.4%跃升至64.3%,单代涨幅近11个百分点。横向对比,这一成绩超越了GPT-5.4(57.7%)和Gemini 3.1 Pro(54.2%),以仅30亿激活参数的身份,实现了对顶尖闭源模型的"以下犯上"。

Terminal-Bench 2.0(考察模型在终端环境下的编程能力)中,Qwen3.6-35B-A3B取得了51.5的高分,显著领先于前代Qwen3.5-35B-A3B(40.5)、Gemma4-31B(42.9)等同类开源模型。

2. 多模态与空间智能:比肩闭源旗舰

Qwen3.6-35B-A3B内置了强大的视觉编码器,在MMBench、RealWorldQA、SimpleVQA等多项视觉语言基准测试中,表现已与Claude Sonnet 4.5持平,部分任务实现超越。

空间智能方面,模型在RefCOCO(考核模型对复杂图像识别能力)上取得了92.0的优异评分,在ODInW13上取得了50.8的成绩,均处于业内前列。

3. 长程任务与Agent框架兼容

在考察长程编程任务的NL2Repo基准测试中,Qwen3.6-35B-A3B取得了29.4的高分,远超Gemma4-31B(15.5)和Gemma4-26BA4B(11.6)。此外,模型已实现对OpenClaw、Qwen Code、Claude Code等主流Agent框架的深度兼容,能够将模型的编程能力、原生多模态能力更好地赋予各类智能体,完成更长程、更复杂的任务。

4. 为什么30亿激活参数能超越270亿稠密模型?

这得益于MoE架构的核心设计哲学。传统的稠密模型,不管什么任务,都会调用全部参数参与计算——就像做一道加减法,却要全公司开会讨论,成本高、速度慢。MoE架构则把模型拆成多个"专家",每次只激活与当前任务相关的少数专家来处理。

Qwen3.6-35B-A3B内部有256个专家网络,每次推理仅激活8个路由专家+1个共享专家。这使得它跑起来的时候,资源消耗跟一个30亿参数的模型差不多,但调用的知识储备却是350亿级别的。

🛠️ 上手即用:如何获取 Qwen3.6-35B-A3B

官方渠道

Qwen3.6-35B-A3B 已在以下平台全面开放:

  • Hugging Face:访问 Qwen/Qwen3.6-35B-A3B 获取完整模型权重和配置文件。
  • 魔搭社区(ModelScope):国内开发者可直接在魔搭社区下载模型。
  • Qwen Studio:免费在线体验模型能力。
  • 阿里云百炼平台:通过 API 调用,服务名为 qwen3.6-flash

本地部署方案

由于模型采用 MoE 架构,激活参数仅 30 亿,本地部署的门槛大幅降低。以下是几种常见的本地运行方案:

  • Transformers 原生加载:兼容 Hugging Face Transformers、vLLM、SGLang、KTransformers 等框架。
  • GGUF 量化版本:Unsloth 团队已提供动态量化 GGUF 版本,进一步降低显存需求,可在消费级硬件上流畅运行。
  • Ollama:可通过 Ollama 一键拉取并运行模型。

硬件建议

  • 完整精度(BF16):建议显存 ≥ 80GB。
  • 4-bit 量化:显存需求约 20-25GB,可在 RTX 4090、MacBook Pro M5 等设备上运行。
  • CPU 推理:内存需求约 32GB,可在普通服务器上运行。

🌟 社区反响

模型一经发布,便在全球 AI 社区引发了热烈反响。著名开发者 Simon Willison 在他的个人博客中分享了一个有趣的案例:他使用 Unsloth 量化的 Qwen3.6-35B-A3B 模型,在自己的 MacBook Pro M5 上生成了一个 "骑自行车的鹈鹕" 的 SVG 图像,其质量甚至超过了 Claude Opus 4.7 的生成结果。这个案例生动地展示了 Qwen3.6 在多模态生成和本地化部署方面的巨大潜力。

开源社区对 Qwen3.6-35B-A3B 的评价普遍积极,认为它进一步抬高了"以小胜大"的开源模型效率上限,是本地部署的智能体编程首选模型。

🔭 展望

Qwen3.6-35B-A3B 的开源,不仅是阿里巴巴在 AI 领域的又一重要里程碑,也为全球开发者提供了一个强大、高效、易用的工具。随着端侧 AI 与自动化智能体需求的激增,这款"低功耗高智能"的模型无疑将成为推动 AI 应用民主化的关键力量。

据了解,阿里下周还将继续开源千问3.6系列新模型,而性能最强的旗舰版模型 Qwen3.6-Max 也将发布。我们期待看到千问系列持续进化,为开发者带来更多惊喜。