最近 Qwen 3.5 开源了,各方面参数都非常能打。
可能是最强的开源模型了,甚至各方面参数都直逼前沿的闭源模型了。
所以非常想在本地跑一跑(跑量化版),另外也想接入 OpenClaw 试一试。
但是当我下载好十几 G 模型之后,进行第一轮对话之后,心就凉了。
我只说了一个“你好”,输出了 8000 多个字符还没有停下来。这个思考过程太漫长了,基本没法使用。(当然 Qwen 3.5 的思考结构还是非常优秀的!)
如果我要配置到龙虾里面,我就希望他能快速反馈。包括很多其他场景也是“快”比思考“深”更重要。
所以我要想个办法把思考关闭了试试看!
我记得 Qwen 的某个系列模型是可以通过 no_think 这种方式关闭思考的。
比如这样:
解释一下黑洞是什么 /no_think
但是 Qwen 3.5 不行!
所以,我们就得用新方法了。写代码的话其实传递个参数就可以了。但是在 Ollama 里面,就有点麻烦了。
还好 Ollama 也考虑到了这一点。
1.Ollama 启动参数设置
Ollama 从 2025 年中开始支持 thinking 参数,直接用 flag 控制:
ollama run qwen3.5 --think=false
或者:
ollama run qwen3.5 --hidethinking
隐藏思考但内部仍思考!
这是 Ollama 官方提供的支持,不仅限于 Qwen 3.5,也同样适合其他具有思考能力的模型。
这下就舒服多了:
立马就会给回复了。
虽然模型没换,但是思考一关,相对速度飙升,真的是疯狂提速了。
2.Ollama 对话中进行切换
除了在启动的时候切换之外,也可以在对话中进行切换,只要输入对应的命令即可。
关闭思考:
/set nothink
启动思考:
/set think
一旦输入成功之后,后续对话,就会按设置的模式来执行了。
这次拿 GLM 4.7 Flash 来演示一下:
从图中可以看到 /set 命令已经生效,非常好用。
3.创建自定义 Modelfile
如果去问 AI,它们都会告诉你还有这种方式。
FROM qwen3.5:32b # ← 改成你实际下载的 tag,例如 qwen3.5:7b / qwen3.5:14b 等
# 强制关闭思考模式(Ollama 2025 年 6 月后支持)
PARAMETER think false
# 系统提示强制 non-thinking(兜底 + 更稳定)
SYSTEM """
/no_think
你是一个简洁、高效、直接的助手。
永远不要输出任何思考过程、<think>...</think> 标签或推理步骤。
直接给出最终答案。
"""
构建并运行:
ollama create qwen3.5-nothink -f Modelfile
ollama run qwen3.5-nothink
这种方式看起来是最美好的,这样我第三方调用的时候,就可以直接调用非思考模型了。
但是……实测无效!
所以第三方调用,只能在调用参数传 false 来解决。
虽然略有遗憾,但是采用第一和第二种方式,已经可以实现在 Ollama 中提速了。
本文主要是记录一下这个知识点,Ollama 可以通过这两种方式来管理思考功能的启停。
这个小羊驼,现在是越来越强大了。各种模型,各种智能体都能一行命令启动。