实战经验帖:本地跑 Qwen3.5 踩过的坑

5 阅读2分钟

最近在折腾一套本地 AI 工作流(数字员工 / MCP / Agent 自动化),从一开始盲目追大模型,到最后收敛到合理方案,中间踩了不少坑,本篇记录分享,各位注意规避。

一、第一坑:以为有 32B,其实根本没有

一开始我在找:Qwen3.5-32B,因为我记得 Qwen3 是有这个参数量大小的

结果官网根本没有。后来才搞明白:👉 官方 3.5 是这样分档的:

image.png

9B / 27B / 35B(A3B)/ 122B / 397B

所谓“32B”,本质是:

Qwen3.5-35B-A3B ≈ 32B能力

原因是:

  • MoE 架构(稀疏激活)
  • 实际参与计算 ≈ 30B+

👉 结论:

不要找 32B,直接认 35B-A3B

二、第二坑:下载一个模型要 5 天

我第一次下 35B:

  • 22GB
  • 速度 48KB/s
  • 预计 128 小时

当时直接怀疑人生。本质原因就一个:下载链路问题(不是模型问题)

解决方案,直接换:aria2c -x 16 -s 16

或者:

  • hf-mirror
  • LM Studio 内置下载

👉 速度能从 KB/s → MB/s

三、第三坑:下载了“假 Qwen”

我一开始下的是: Qwen3.5-14B-A3B-Claude-Opus-Reasoning-Distilled

听起来很猛,实际上是:社区魔改模型

问题非常明显:

  • 输出不稳定
  • JSON结构容易乱
  • 风格像 Claude
  • 指令跟随不靠谱

如果模型名包含:

distilled / opus / gpt / merge / uncensored

👉 基本可以判断:= 二创模型(慎用)

正确选择:官方 GGUF

四、第四坑:盲目追大模型(35B)

我一开始目标很明确:必须上 35B

但实际跑起来:

指标表现
内存吃满
速度很慢
体验

本地模型不是越大越好,而是要匹配系统形态


五、最终结论:换成 9B

后来我换成:Qwen3.5-9B Q4_K_M(6.5GB)

9B 可以:

  • Agent执行
  • JSON输出
  • 代码生成(中等)
  • 流程编排

9B 不擅长:

  • 长链复杂推理
  • 多表复杂分析
  • 高精度工程代码

我现在的理解已经变成:

模型不是单点,而是系统架构的一部分
主模型(常驻)
Qwen3.5-9B

复杂任务
Qwen3.5-14B

高阶推理
Qwen3.5-35B-A3B(按需调用)
9B = 跑系统
14B = 做任务
35B = 解难题

如果你是:

  • 在做 Agent / MCP / 自动化系统
  • 本地部署(Mac / 32GB)
  • 需要长期运行

👉 最优路径是:

先用 9B 跑通系统
再引入 14B 做增强
最后按需接入 35B

以上就是本次分享。我是安东尼(github: TUARAN),持续关注大模型应用、AI工程化与自动化系统。欢迎一起交流 OpenClaw、Agent、数字员工 等实践,也欢迎共创  《前端周刊》  、加入 博主联盟加我或进群,一起做点有意思的 AI 项目。