Qwen3.5和GLM4.7Flash疯狂提速，Ollama关闭思考的两种方式！最近 Qwen 3.5 开源了，各方面参

最近 Qwen 3.5 开源了，各方面参数都非常能打。

可能是最强的开源模型了，甚至各方面参数都直逼前沿的闭源模型了。

所以非常想在本地跑一跑（跑量化版），另外也想接入 OpenClaw 试一试。

但是当我下载好十几 G 模型之后，进行第一轮对话之后，心就凉了。

我只说了一个“你好”，输出了 8000 多个字符还没有停下来。这个思考过程太漫长了，基本没法使用。（当然 Qwen 3.5 的思考结构还是非常优秀的！）

如果我要配置到龙虾里面，我就希望他能快速反馈。包括很多其他场景也是“快”比思考“深”更重要。

所以我要想个办法把思考关闭了试试看！

我记得 Qwen 的某个系列模型是可以通过 no_think 这种方式关闭思考的。

比如这样：

解释一下黑洞是什么 /no_think

但是 Qwen 3.5 不行！

所以，我们就得用新方法了。写代码的话其实传递个参数就可以了。但是在 Ollama 里面，就有点麻烦了。

还好 Ollama 也考虑到了这一点。

1.Ollama 启动参数设置

Ollama 从 2025 年中开始支持 thinking 参数，直接用 flag 控制：

ollama run qwen3.5 --think=false

或者：

ollama run qwen3.5 --hidethinking

隐藏思考但内部仍思考！

这是 Ollama 官方提供的支持，不仅限于 Qwen 3.5，也同样适合其他具有思考能力的模型。

这下就舒服多了：

立马就会给回复了。

虽然模型没换，但是思考一关，相对速度飙升，真的是疯狂提速了。

2.Ollama 对话中进行切换

除了在启动的时候切换之外，也可以在对话中进行切换，只要输入对应的命令即可。

关闭思考：

/set nothink

启动思考：

/set think

一旦输入成功之后，后续对话，就会按设置的模式来执行了。

这次拿 GLM 4.7 Flash 来演示一下：

从图中可以看到 /set 命令已经生效，非常好用。

3.创建自定义 Modelfile

如果去问 AI，它们都会告诉你还有这种方式。

FROM qwen3.5:32b     # ← 改成你实际下载的 tag，例如 qwen3.5:7b / qwen3.5:14b 等

# 强制关闭思考模式（Ollama 2025 年 6 月后支持）
PARAMETER think false

# 系统提示强制 non-thinking（兜底 + 更稳定）
SYSTEM """
/no_think
你是一个简洁、高效、直接的助手。
永远不要输出任何思考过程、<think>...</think> 标签或推理步骤。
直接给出最终答案。
"""

构建并运行：

ollama create qwen3.5-nothink -f Modelfile
ollama run qwen3.5-nothink

这种方式看起来是最美好的，这样我第三方调用的时候，就可以直接调用非思考模型了。

但是……实测无效！

所以第三方调用，只能在调用参数传 false 来解决。

虽然略有遗憾，但是采用第一和第二种方式，已经可以实现在 Ollama 中提速了。

本文主要是记录一下这个知识点，Ollama 可以通过这两种方式来管理思考功能的启停。

这个小羊驼，现在是越来越强大了。各种模型，各种智能体都能一行命令启动。