最近在折腾一套本地 AI 工作流(数字员工 / MCP / Agent 自动化),从一开始盲目追大模型,到最后收敛到合理方案,中间踩了不少坑,本篇记录分享,各位注意规避。
一、第一坑:以为有 32B,其实根本没有
一开始我在找:Qwen3.5-32B,因为我记得 Qwen3 是有这个参数量大小的
结果官网根本没有。后来才搞明白:👉 官方 3.5 是这样分档的:
9B / 27B / 35B(A3B)/ 122B / 397B
所谓“32B”,本质是:
Qwen3.5-35B-A3B ≈ 32B能力
原因是:
- MoE 架构(稀疏激活)
- 实际参与计算 ≈ 30B+
👉 结论:
不要找 32B,直接认 35B-A3B
二、第二坑:下载一个模型要 5 天
我第一次下 35B:
- 22GB
- 速度 48KB/s
- 预计 128 小时
当时直接怀疑人生。本质原因就一个:下载链路问题(不是模型问题)
解决方案,直接换:aria2c -x 16 -s 16
或者:
- hf-mirror
- LM Studio 内置下载
👉 速度能从 KB/s → MB/s
三、第三坑:下载了“假 Qwen”
我一开始下的是: Qwen3.5-14B-A3B-Claude-Opus-Reasoning-Distilled
听起来很猛,实际上是:社区魔改模型
问题非常明显:
- 输出不稳定
- JSON结构容易乱
- 风格像 Claude
- 指令跟随不靠谱
如果模型名包含:
distilled / opus / gpt / merge / uncensored
👉 基本可以判断:= 二创模型(慎用)
正确选择:官方 GGUF
四、第四坑:盲目追大模型(35B)
我一开始目标很明确:必须上 35B
但实际跑起来:
| 指标 | 表现 |
|---|---|
| 内存 | 吃满 |
| 速度 | 很慢 |
| 体验 | 卡 |
本地模型不是越大越好,而是要匹配系统形态
五、最终结论:换成 9B
后来我换成:Qwen3.5-9B Q4_K_M(6.5GB)
9B 可以:
- Agent执行
- JSON输出
- 代码生成(中等)
- 流程编排
9B 不擅长:
- 长链复杂推理
- 多表复杂分析
- 高精度工程代码
我现在的理解已经变成:
模型不是单点,而是系统架构的一部分
主模型(常驻)
Qwen3.5-9B
复杂任务
Qwen3.5-14B
高阶推理
Qwen3.5-35B-A3B(按需调用)
9B = 跑系统
14B = 做任务
35B = 解难题
如果你是:
- 在做 Agent / MCP / 自动化系统
- 本地部署(Mac / 32GB)
- 需要长期运行
👉 最优路径是:
先用 9B 跑通系统
再引入 14B 做增强
最后按需接入 35B
以上就是本次分享。我是安东尼(github: TUARAN),持续关注大模型应用、AI工程化与自动化系统。欢迎一起交流 OpenClaw、Agent、数字员工 等实践,也欢迎共创 《前端周刊》 、加入 博主联盟。加我或进群,一起做点有意思的 AI 项目。