Qwen3.5和GLM4.7Flash疯狂提速,Ollama关闭思考的两种方式!

0 阅读3分钟

最近 Qwen 3.5 开源了,各方面参数都非常能打。

可能是最强的开源模型了,甚至各方面参数都直逼前沿的闭源模型了。

所以非常想在本地跑一跑(跑量化版),另外也想接入 OpenClaw 试一试。

但是当我下载好十几 G 模型之后,进行第一轮对话之后,心就凉了。

我只说了一个“你好”,输出了 8000 多个字符还没有停下来。这个思考过程太漫长了,基本没法使用。(当然 Qwen 3.5 的思考结构还是非常优秀的!)

如果我要配置到龙虾里面,我就希望他能快速反馈。包括很多其他场景也是“快”比思考“深”更重要。

所以我要想个办法把思考关闭了试试看!

我记得 Qwen 的某个系列模型是可以通过 no_think 这种方式关闭思考的。

比如这样:

解释一下黑洞是什么 /no_think

但是 Qwen 3.5 不行!

所以,我们就得用新方法了。写代码的话其实传递个参数就可以了。但是在 Ollama 里面,就有点麻烦了。

还好 Ollama 也考虑到了这一点。

1.Ollama 启动参数设置

Ollama 从 2025 年中开始支持 thinking 参数,直接用 flag 控制:

ollama run qwen3.5 --think=false

或者:

ollama run qwen3.5 --hidethinking

隐藏思考但内部仍思考!

这是 Ollama 官方提供的支持,不仅限于 Qwen 3.5,也同样适合其他具有思考能力的模型。

这下就舒服多了:

立马就会给回复了。

虽然模型没换,但是思考一关,相对速度飙升,真的是疯狂提速了。

2.Ollama 对话中进行切换

除了在启动的时候切换之外,也可以在对话中进行切换,只要输入对应的命令即可。

关闭思考:

/set nothink

启动思考:

/set think

一旦输入成功之后,后续对话,就会按设置的模式来执行了。

这次拿 GLM 4.7 Flash 来演示一下:

从图中可以看到 /set 命令已经生效,非常好用。

3.创建自定义 Modelfile

如果去问 AI,它们都会告诉你还有这种方式。

FROM qwen3.5:32b     # ← 改成你实际下载的 tag,例如 qwen3.5:7b / qwen3.5:14b 等# 强制关闭思考模式(Ollama 2025 年 6 月后支持)
PARAMETER think false
​
# 系统提示强制 non-thinking(兜底 + 更稳定)
SYSTEM """
/no_think
你是一个简洁、高效、直接的助手。
永远不要输出任何思考过程、<think>...</think> 标签或推理步骤。
直接给出最终答案。
"""

构建并运行:

ollama create qwen3.5-nothink -f Modelfile
ollama run qwen3.5-nothink

这种方式看起来是最美好的,这样我第三方调用的时候,就可以直接调用非思考模型了。

但是……实测无效!

所以第三方调用,只能在调用参数传 false 来解决。

虽然略有遗憾,但是采用第一和第二种方式,已经可以实现在 Ollama 中提速了。

本文主要是记录一下这个知识点,Ollama 可以通过这两种方式来管理思考功能的启停。

这个小羊驼,现在是越来越强大了。各种模型,各种智能体都能一行命令启动。