Ollama Windows 部署:一键安装 + 局域网服务，适配 OpenClaw 无 token 限制摆脱商用模型额

📌 背景：CPU算力利用，摆脱商用模型额度束缚

之前写过OpenClaw + Ollama（魔塔源）：OpenClaw使用国内可搭的无限量本地大模型，是在Linux下面配置ollama支持OpenClaw，有同学评论说想要windows的版本，就有了这个文章。

本文基于Windows 10/11系统，适配显存仅512M、仅能CPU运行的场景，手把手教你完成Ollama安装、qwen3.5:9b加载、局域网服务配置及OpenClaw对接，步骤简洁无坑，新手也能上手！

⚙️ 前期准备（显存512M、CPU运行专属）

系统：Windows 10/11（64位，建议升级最新系统补丁）

硬件：CPU（4核及以上，推荐8核+，提升推理速度），内存≥16GB（推荐32GB，CPU运行更吃内存），显存仅512M（无需核显/独显参与，完全依赖CPU），存储空间≥20GB（qwen3.5:9b模型约10GB）

网络：稳定网络（用于下载安装包和9b模型，体积小下载快）

权限：管理员权限（命令行、环境变量配置需用）

优化前提：关闭后台冗余程序，释放CPU资源，提升模型推理速度

📥 第一步：一键安装Ollama（Windows笔记本通用，无网络卡顿）

Windows下Ollama安装无需依赖第三方工具，官网直装1分钟搞定，适配CPU运行无兼容问题，无需依赖核显/独显（显存512M可正常使用）：

下载安装包：访问Ollama官网「ollama.com」，点击「Download for Windows」，下载`OllamaSetup.exe`安装包；

完成安装：点击「Install」，安装后系统托盘出现羊驼图标，说明Ollama服务已自动启动；

验证安装：管理员打开CMD/PowerShell，执行以下命令，显示版本号即安装成功（CPU运行无适配问题）：ollama --version

📦 第二步：加载qwen3.5:9b（CPU运行最优适配模型）

qwen3.5:9b体积小、对显存无高要求，无需核显/独显支持，完美适配CPU运行，即便显存仅512M也能正常加载，一键命令自动下载+加载，无需额外配置：

管理员打开CMD/PowerShell，执行专属加载命令：

ollama run qwen3.5:9b

首次运行自动下载模型文件（约10GB，比35b快3倍以上），下载完成后命令行显示`>>> Send a message`，表示模型可本地交互；

本地测试：直接输入问题（如「写一个简单的Python数据分析脚本」），模型实时返回结果，验证CPU运行正常。

小贴士：若想换其他轻量模型，可访问「ollama.com/search」挑选7b…

🌐 第三步：配置局域网服务，笔记本变AI服务器

默认Ollama仅本地（127.0.0.1）可访问，配置后支持同一局域网内的手机、平板、其他电脑调用，核心是设置系统环境变量+放行防火墙，适配笔记本便携使用场景：

3.1 核心：设置系统级环境变量（用户变量无效，必做）

右键「此电脑」→「属性」→「高级系统设置」→「环境变量」；

在系统变量栏点击「新建」，添加局域网访问配置： - 变量名：`OLLAMA_HOST` - 变量值：`0.0.0.0:11434`（固定默认端口，无需自定义，笔记本便携更易记）；

连续点击「确定」保存，所有窗口均需确认。

3.2 重启Ollama服务，让配置生效（Windows通用）

点击右下角ollama标志，然后quit ollama

3.3 放行防火墙，避免端口被拦截（笔记本必做）

打开「Windows Defender防火墙」→「高级设置」→「入站规则」→「新建规则」；

规则类型选「端口」→ 协议选「TCP」→ 特定本地端口填`11434`；

后续步骤全部选「允许连接」，命名规则（如「Ollama-11434」），完成放行。

🧪 第四步：测试局域网服务连通性（qwen3.5:9b专属）

配置完成后，用Python脚本测试跨设备访问，确保Windows电脑（CPU运行、显存512M）的Ollama服务正常：

新建`test_ollama.py`文件，复制以下代码（替换为你的电脑局域网IP，如192.168.3.10）；

import requests
import json

替换为你的电脑局域网IP
url = "http://192.168.3.10:11434/api/generate"
data = {    "model": "qwen3.5:9b",  # 固定为9b模型，适配CPU运行    "prompt": "写一首关于笔记本办公的小诗",    "stream": True}
response = requests.post(url, json=data, stream=True)
for line in response.iter_lines():    
  if line:        
    res = json.loads(line)        
    if "response" in res:            
      print(res["response"], end="", flush=True)        
      if res.get("done"):            
      break

本地运行脚本：若实时打印出诗句，说明本地服务正常；

跨设备测试：在同一局域网的手机/另一台电脑运行该脚本，替换IP后能正常返回结果，即局域网服务配置成功。

🔗 第五步：对接OpenClaw，实现无token无限调用

将Windows电脑（CPU运行、显存512M）的qwen3.5:9b接入OpenClaw，仅需修改`openclaw.json`配置文件，全程无需改代码，适配无压力：

找到OpenClaw的配置文件`openclaw.json`，添加ollama节点配置（替换为你的电脑局域网IP）；

"ollama": {
    "baseUrl": "http://127.0.0.1:11434",
    "apiKey": "ollama-local", // Ollama无实际apiKey验证，任意填写
    "api": "ollama",
    "models": [
        {
            "id": "qwen3.5:9b",  // 固定为9b模型，适配CPU运行
            "name": "Qwen3.5 9B",
            "reasoning": false,
            "input": ["text", "image"],
            "cost": {
                "input": 0,
                "output": 0,
                "cacheRead": 0,
                "cacheWrite": 0
            },
            "contextWindow": 100000,  // 9b模型适配的上下文窗口
            "maxTokens": 4096  // 9b模型最优输出token数
        }
    ]
}

将OpenClaw默认模型设置为`ollama/qwen3.5:9b`，保存配置；

📊 真实资源占用（显存512M、CPU运行实测）

以qwen3.5:9b+8核CPU（32GB内存、显存512M，完全CPU运行）为例，通过「任务管理器」实测资源占用：

折腾了几个小时发现，只靠 CPU 跑这套方案完全不适合，不仅 CPU 占用率拉满，而且响应速度极慢，ollama还行，OpenClaw体验很差。还是得有显卡啊。