📌 背景:CPU算力利用,摆脱商用模型额度束缚
之前写过OpenClaw + Ollama(魔塔源):OpenClaw使用国内可搭的无限量本地大模型,是在Linux下面配置ollama支持OpenClaw,有同学评论说想要windows的版本,就有了这个文章。
本文基于Windows 10/11系统,适配显存仅512M、仅能CPU运行的场景,手把手教你完成Ollama安装、qwen3.5:9b加载、局域网服务配置及OpenClaw对接,步骤简洁无坑,新手也能上手!
⚙️ 前期准备(显存512M、CPU运行专属)
系统:Windows 10/11(64位,建议升级最新系统补丁)
硬件:CPU(4核及以上,推荐8核+,提升推理速度),内存≥16GB(推荐32GB,CPU运行更吃内存),显存仅512M(无需核显/独显参与,完全依赖CPU),存储空间≥20GB(qwen3.5:9b模型约10GB)
网络:稳定网络(用于下载安装包和9b模型,体积小下载快)
权限:管理员权限(命令行、环境变量配置需用)
优化前提:关闭后台冗余程序,释放CPU资源,提升模型推理速度
📥 第一步:一键安装Ollama(Windows笔记本通用,无网络卡顿)
Windows下Ollama安装无需依赖第三方工具,官网直装1分钟搞定,适配CPU运行无兼容问题,无需依赖核显/独显(显存512M可正常使用):
下载安装包:访问Ollama官网「ollama.com」,点击「Download for Windows」,下载`OllamaSetup.exe`安装包;
完成安装:点击「Install」,安装后系统托盘出现羊驼图标,说明Ollama服务已自动启动;
验证安装:管理员打开CMD/PowerShell,执行以下命令,显示版本号即安装成功(CPU运行无适配问题):ollama --version
📦 第二步:加载qwen3.5:9b(CPU运行最优适配模型)
qwen3.5:9b体积小、对显存无高要求,无需核显/独显支持,完美适配CPU运行,即便显存仅512M也能正常加载,一键命令自动下载+加载,无需额外配置:
管理员打开CMD/PowerShell,执行专属加载命令:
ollama run qwen3.5:9b
首次运行自动下载模型文件(约10GB,比35b快3倍以上),下载完成后命令行显示`>>> Send a message`,表示模型可本地交互;
本地测试:直接输入问题(如「写一个简单的Python数据分析脚本」),模型实时返回结果,验证CPU运行正常。
小贴士:若想换其他轻量模型,可访问「ollama.com/search」挑选7b…
🌐 第三步:配置局域网服务,笔记本变AI服务器
默认Ollama仅本地(127.0.0.1)可访问,配置后支持同一局域网内的手机、平板、其他电脑调用,核心是设置系统环境变量+放行防火墙,适配笔记本便携使用场景:
3.1 核心:设置系统级环境变量(用户变量无效,必做)
右键「此电脑」→「属性」→「高级系统设置」→「环境变量」;
在系统变量栏点击「新建」,添加局域网访问配置: - 变量名:`OLLAMA_HOST` - 变量值:`0.0.0.0:11434`(固定默认端口,无需自定义,笔记本便携更易记);
连续点击「确定」保存,所有窗口均需确认。
3.2 重启Ollama服务,让配置生效(Windows通用)
点击右下角ollama标志,然后quit ollama
3.3 放行防火墙,避免端口被拦截(笔记本必做)
打开「Windows Defender防火墙」→「高级设置」→「入站规则」→「新建规则」;
规则类型选「端口」→ 协议选「TCP」→ 特定本地端口填`11434`;
后续步骤全部选「允许连接」,命名规则(如「Ollama-11434」),完成放行。
🧪 第四步:测试局域网服务连通性(qwen3.5:9b专属)
配置完成后,用Python脚本测试跨设备访问,确保Windows电脑(CPU运行、显存512M)的Ollama服务正常:
新建`test_ollama.py`文件,复制以下代码(替换为你的电脑局域网IP,如192.168.3.10);
import requests
import json
替换为你的电脑局域网IP
url = "http://192.168.3.10:11434/api/generate"
data = { "model": "qwen3.5:9b", # 固定为9b模型,适配CPU运行 "prompt": "写一首关于笔记本办公的小诗", "stream": True}
response = requests.post(url, json=data, stream=True)
for line in response.iter_lines():
if line:
res = json.loads(line)
if "response" in res:
print(res["response"], end="", flush=True)
if res.get("done"):
break
本地运行脚本:若实时打印出诗句,说明本地服务正常;
跨设备测试:在同一局域网的手机/另一台电脑运行该脚本,替换IP后能正常返回结果,即局域网服务配置成功。
🔗 第五步:对接OpenClaw,实现无token无限调用
将Windows电脑(CPU运行、显存512M)的qwen3.5:9b接入OpenClaw,仅需修改`openclaw.json`配置文件,全程无需改代码,适配无压力:
找到OpenClaw的配置文件`openclaw.json`,添加ollama节点配置(替换为你的电脑局域网IP);
"ollama": {
"baseUrl": "http://127.0.0.1:11434",
"apiKey": "ollama-local", // Ollama无实际apiKey验证,任意填写
"api": "ollama",
"models": [
{
"id": "qwen3.5:9b", // 固定为9b模型,适配CPU运行
"name": "Qwen3.5 9B",
"reasoning": false,
"input": ["text", "image"],
"cost": {
"input": 0,
"output": 0,
"cacheRead": 0,
"cacheWrite": 0
},
"contextWindow": 100000, // 9b模型适配的上下文窗口
"maxTokens": 4096 // 9b模型最优输出token数
}
]
}
将OpenClaw默认模型设置为`ollama/qwen3.5:9b`,保存配置;
📊 真实资源占用(显存512M、CPU运行实测)
以qwen3.5:9b+8核CPU(32GB内存、显存512M,完全CPU运行)为例,通过「任务管理器」实测资源占用:
折腾了几个小时发现,只靠 CPU 跑这套方案完全不适合,不仅 CPU 占用率拉满,而且响应速度极慢,ollama还行,OpenClaw体验很差。还是得有显卡啊。