前不久,Google发布了Gemma 4。
我当时刷到这个消息,第一反应是,又一个开源模型,然后就划走了。
然后我看到了几个字,Apache 2.0协议。
我停了一下。
因为Gemma系列之前一直用的是自定义协议,商业用途有法律风险,很多人不敢用。
Apache 2.0就不一样了,这是最干净的开源协议之一,随便用,商业也没问题。
然后我继续往下看,256K上下文,多模态,原生函数调用。
好,有点意思了。
再然后,我看到了最关键的一条,完全免费,不需要API Key。
我决定动手试试。
在说怎么装之前,先说一件让我有点懵的事。
Gemma 4有一个叫E2B的版本,有效参数只有2.3B。
但它的性能,超过了Gemma 3的27B版本。
参数少了12倍,性能反而更强。
我当时看到这个,脑子里转了好几圈,我寻思了一下我没寻思明白。
直到我理解了MoE架构的逻辑,才算是搞清楚,它不是让所有参数一起干活,而是根据任务激活不同的「专家」,聪明用人,不瞎用人。
这种参数效率,才是它能在普通电脑上跑起来、性能还不差的核心原因。
好,进入正题,说怎么在本地把它跑起来,并且接到微信里用。
分两块,先装Ollama,再装OpenClaw。
先装Ollama,这是跑模型的引擎。
Windows直接去 ollama.com/download 下载安装包,双击,装完。
macOS一行命令:
brew install --cask ollama-app
装完之后,拉Gemma 4的E4B版本:
ollama pull gemma4:e4b
大概3.6GB,根据网速等个5到15分钟。
下完之后,跑一下验证,打个招呼:
ollama run gemma4:e4b
>>> 你好,你什么大模型?
看到回复,就说明引擎正常了。
然后装OpenClaw,具体详细配置可以看我往期教程。
前置条件,Node.js版本要22.16以上,推荐装24。
Node装好之后:
npm install -g openclaw@latest
然后编辑配置文件,路径是 ~/.openclaw/openclaw.json,写入Ollama的接入配置:
{
"models":{
"providers":{
"ollama":{
"baseUrl":"http://localhost:11434/v1",
"api":"openai-completions",
"models":[
{
"id":"gemma4:e4b",
"name":"Gemma 4 E4B",
"reasoning":false,
"contextWindow":131072,
"maxTokens":8192
}
]
}
}
},
"agents":{
"defaults":{
"model":{
"primary":"ollama/gemma4:e4b"
}
}
}
}
有一个坑,"reasoning": false 这行必须写,不写的话工具调用会出问题,我在这里卡了一会儿,大家注意一下。
配置写完,启动网关,测试一下:
openclaw gateway --port 18789 --verbose
收到回复,这一步就过了。
最后,接微信。
装腾讯官方的微信插件:
openclaw plugins install "@tencent-weixin/openclaw-weixin"
在配置文件里加上渠道配置,然后扫码登录:
openclaw channels login --channel openclaw-weixin
微信扫完码,还有最后一步,去微信「我」→「设置」→「插件」,找到ClawBot,启用它。
启用之后,在微信里发一条「你好」,收到Gemma 4的回复,就全部搞定了。
对于日常用来聊天、写代码、做文件处理,这个速度完全够用。
顺着这个说一下我自己的用法。
60%-70%的任务,我现在都在用本地的Gemma 4,代码阅读、配置文件生成、文件操作这些,它都能搞定。
剩下那30%-40%真正复杂的任务,跨文件重构、多层调试,再切回云端模型。
这样算下来,API成本从之前每天20美元以上,降到了几美元。
最后算一笔账。
Gemma 4,Ollama,OpenClaw,微信插件免费。
唯一的成本,电费,大概一两块钱一天。
接近零成本,拥有一个完全跑在本地的小龙虾,
数据不出你的电脑,不依赖任何云端,不需要API Key。
以上,既然看到这里了,相信是有所共鸣。随手点个赞、在看、转发三连,想第一时间看到新内容,给我个星标⭐即可。感谢陪伴,文字因你而完整,下次见。