大家好,我是小悟。
今天凌晨,还没睡,拿起手机,刷到通义实验室发布了开源Qwen3.6-35B-A3B的公告。
是的,千问家族又添新成员了,Qwen3.6-35B-A3B 正式开源。
这款模型最吸引人的地方在于,它仅用约 30 亿的激活参数,就在多项关键指标上追平甚至超越了参数量更大的模型。
对于开发者而言,这意味着可以用更低的成本,获得更强的智能体编程和多模态能力。
下面来详细介绍一下这款模型的优势和特点、解决的痛点、本地部署、API调用和编程助手集成的过程。
模型亮点:小而强的“多面手”
- 高效 MoE 架构
Qwen3.6-35B-A3B 采用混合专家(MoE)架构,总参数量为 350 亿,但每次推理仅激活约 30 亿参数。
这种设计在保证性能的同时,显著降低了显存占用和推理成本。
- 智能体编程能力突出
在多个权威编程基准测试中,该模型表现亮眼,甚至可以和体量更大的 Qwen3.5-27B 等模型一较高下:
- 原生多模态与长上下文
模型原生支持图像、文档等多种输入,并具备强大的空间理解和推理能力:
视觉问答: MMMU 81.7, MathVista 86.4, RealWorldQA 85.3
空间智能: RefCOCO 92.0, ODInW13 50.8
视频理解: VideoMME 86.6, VideoMMMU 83.7
超长上下文: 原生支持 262,144 tokens,可扩展至约 1,010,000 tokens。
- 思考与非思考双模式
模型支持两种工作模式:
思考模式: 适合复杂推理任务,模型会展示完整的思维链。
非思考模式: 适合日常问答和快速响应,输出更直接。
- 完全开源,协议友好
模型权重以 Apache 2.0 协议开源,可在 Hugging Face 和 ModelScope 下载,方便进行本地部署和二次开发。
在线体验:零门槛尝鲜
如果你想快速体验模型能力,无需配置环境,直接访问 Qwen Studio 即可。
开始对话:页面加载后,即可直接与模型对话。你可以输入文字,或上传图片进行多模态问答。
体验编程:尝试让它“写一个 Python 脚本,批量重命名文件”或“用 HTML/CSS 写一个响应式卡片”,感受其代码生成能力。
本地部署:三种方案任选
如果你希望在本地或服务器上部署,以下三种主流方案可供参考。
方案一:SGLang (高吞吐生产环境)
适合需要高并发和长上下文的生产场景。
安装 SGLang
uv pip install sglang[all]
启动服务 (8卡, 262K上下文)
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3
服务启动后,即可通过 http://localhost:8000/v1调用 OpenAI 兼容接口。
方案二:vLLM (通用高性能推理)
另一个成熟的高性能推理框架,部署方式类似。
安装 vLLM
uv pip install vllm --torch-backend=auto
启动服务
vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3
如需纯文本推理以节省显存,可添加 --language-model-only参数。
方案三:个人电脑/笔记本 (Unsloth GGUF)
适合在消费级显卡或个人电脑上运行。
准备环境:安装 llama.cpp或直接使用 Unsloth Studio 管理环境。
安装 Unsloth Studio (macOS / Linux / WSL)
curl -fsSL https://unsloth.ai/install.sh| sh
unsloth studio -H 0.0.0.0
下载模型:从 Hugging Face 或 ModelScope 下载 Unsloth 提供的 GGUF 量化版本(如 Q4_K_M)。
运行模型:在 Unsloth Studio 的 Web 界面中加载下载好的 GGUF 文件,即可开始对话。
API 调用:快速集成
通过阿里云百炼平台,你可以轻松将模型能力集成到自己的应用中。
开通服务:登录阿里云控制台,找到“百炼”或“模型服务”产品,激活 qwen3.6-flash模型并获取 API Key。
构造请求:该接口兼容 OpenAI 的 chat/completions格式。调用时,建议设置 "preserve_thinking": true以保留思维链,对智能体任务效果更佳。
from openai import OpenAI
client = OpenAI(
api_key="你的百炼API_KEY",
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1" # 百炼的OpenAI兼容地址
)
completion = client.chat.completions.create(
model="qwen3.6-flash",
messages=[
{"role": "user", "content": "写一段Python代码,计算斐波那契数列"}
],
preserve_thinking=True # 推荐开启
)
print(completion.choices[0].message.content)
同时,百炼也提供了兼容 Anthropic 协议的接口,方便你接入其他生态。
编程助手集成
Qwen3.6-35B-A3B 可以无缝集成到多种编程助手中,让你的 IDE 拥有强大的 AI 能力。
- Qwen Code (官方推荐)
专为千问模型优化的命令行编程助手。
安装:npm install -g @qwen-code/qwen-code@latest
配置:终端运行 qwen,执行 /auth命令,按提示填入你的百炼 API Key 并选择 qwen3.6-flash模型。
使用:配置完成后,在终端中即可通过自然语言与 AI 协作编程。
- OpenClaw (开源智能体)
一个强大的开源终端编程助手。
安装:curl -fsSL https://molt.bot/install.sh | bash
设置环境变量:export DASHSCOPE_API_KEY=你的百炼API_KEY
配置模型:编辑 ~/.openclaw/openclaw.json文件,添加百炼的模型配置。
{
"models": {
"mode": "merge",
"providers": {
"bailian": {
"baseUrl": "https://dashscope.aliyuncs.com/compatible-mode/v1",
"apiKey": "DASHSCOPE_API_KEY",
"api": "openai-completions",
"models": [
{
"id": "qwen3.6-flash",
"name": "qwen3.6-flash"
}
]
}
}
}
}
启动:运行 openclaw dashboard,即可在界面中选择 Qwen 模型进行编程。
- Claude Code (借壳调用)
如果你习惯使用 Claude Code 的界面,可以配置它来调用 Qwen 的 API。
安装:npm install -g @anthropic-ai/claude-code
配置环境变量:在终端中设置以下变量,指向百炼的 Anthropic 兼容接口。
export ANTHROPIC_MODEL="qwen3.6-flash"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-flash"
export ANTHROPIC_BASE_URL="https://dashscope-intl.aliyuncs.com/apps/anthropic" # 百炼Anthropic兼容地址
export ANTHROPIC_AUTH_TOKEN="你的百炼API_KEY"
启动:运行 claude,此时 Claude Code 的界面调用的就是 Qwen3.6-35B-A3B 模型了。
总结
Qwen3.6-35B-A3B 的出现,它证明了通过优秀的架构设计,小模型也能拥有强大的能力。
对于个人开发者和中小团队来说,这意味着我们可以在本地或低成本云实例上,运行一个兼具编程和多模态能力的“大模型”,这大大降低了 AI 应用的门槛。
无论是想做一个智能的本地文档助手,还是一个有感知能力的自动化机器人,Qwen3.6-35B-A3B 都是一个非常值得尝试的起点。
谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。
您的一键三连,是我更新的最大动力,谢谢
山水有相逢,来日皆可期,谢谢阅读,我们再会
我手中的金箍棒,上能通天,下能探海