开头
阿里Qwen团队刚刚丢出了一枚重磅炸弹——Qwen3.6-35B-A3B。
这不仅仅是一个新版本的发布,更是一次对“算力堆砌论”的降维打击。它用350亿的总参数量(仅激活30亿),在智能体编程等关键场景下,硬刚了参数大得多的稠密模型。
开源地址:modelscope.cn/collections…
核心分析
1. 稀疏性(Sparsity)的胜利:MoE架构的工程化落地 Qwen3.6-35B-A3B 的核心标签是 MoE(混合专家模型)。
- 为什么重要: 传统的稠密模型(Dense Model)训练和推理时,所有参数都要参与计算,极其昂贵。而MoE架构像一个“智囊团”,每次只激活最擅长的“少数专家”(即30亿激活参数)。
- 对开发者的价值: 这意味着开发者可以用极低的硬件门槛(消费级显卡即可运行)获得接近千亿级模型的推理能力。它解决了“想要大模型效果,但买不起A100集群”的痛点。
2. 智能体(Agent)编程能力的跃升:从“写代码”到“做架构” 官方数据显示,它在智能体编程方面大幅超越了前代 Qwen3.5-35B-A3B,甚至能与 Qwen3.5-27B 和 Gemma4-31B 等更大参数的稠密模型一较高下。
- 场景变化: 这不仅仅是写个函数,而是意味着它能更好地理解复杂的项目结构、API调用和逻辑编排。
- 工程落地: 对于初创公司或独立开发者,这意味着你可以用它来辅助构建真正的全栈应用,而不仅仅是写个Hello World。它是AI程序员的“副驾驶”,能显著降低从0到1的试错成本。
3. 多模态思考与非思考模式的并存 模型依然支持多模态思考与非思考模式。
- 解读: “思考模式”意味着模型在回答前会进行推理(Chain of Thought),适合复杂决策;“非思考模式”则追求极速响应,适合简单问答。
- 产品化意义: 这种灵活性让开发者可以针对不同的业务场景(如:客服对话 vs. 代码生成)动态切换模型状态,优化用户体验与算力成本的平衡。
苍狮技术团队观点
- 关于“高估”与“低估”: 目前市场可能低估了 3B激活参数 在端侧(Edge)落地的可能性。虽然大家都在卷千亿大模型,但Qwen3.6这种“小身材大能量”的模型,才是未来AI应用爆发的基石。
- 投入建议: 如果你是应用层开发者,现在是最佳入场时机。不要去死磕训练大模型,而是利用Qwen3.6这种高性能的开源底座,去构建垂直领域的Agent应用。它的开源属性(ModelScope)意味着你可以完全掌控数据隐私和模型迭代。
总结
Qwen3.6-35B-A3B 的出现,标志着大模型竞争从“比谁参数大”进入了“比谁更聪明、更省钱”的新阶段。它不是简单的参数堆砌,而是一次高效的资源调度革命。