无意间发现了一个巨牛的人工智能教程,忍不住分享一下给大家。很通俗易懂,重点是还非常风趣幽默,像看小说一样。网址是captainbed.cn/jj。希望更多人能加入到我们AI领域。
我滴钱包在滴血!
兄弟们,我真的顶不住了!上个月光Claude的API账单就干了480块,这还不算GPT-4那些零零碎碎的调用。每次看那个扣费通知,心都在滴血啊!就在上周,我同事老王神秘兮兮的跟我说:"别当冤大头了,搞个龙虾(OpenClaw)连上Gemma 4,本地跑Agent不香吗?"
我一开始还不信。本地跑大模型?那不是卡成PPT吗?结果老王把他的Mac Studio借我试了十分钟,我直接好家伙!这流畅度,这响应速度,跟云端差不了多少啊!最骚的是,真的不花钱。零刀!zero!
然后我就在网上扒拉资料,发现谷歌官方居然下场了!4月10号刚出的教程,手把手教你三步连上。我跟着搞了一遍,真的就三步,十五分钟搞定。今天我就把这套"白嫖秘籍"全盘托出,保准你砍完就能上手!
Gemma 4是啥?谷歌终于开窍了!
说实话,以前我对谷歌的Gemma系列没啥感觉。Gemma 3出来的时候我也试过,怎么说呢...有点鸡肋?但是这次Gemma 4(2025年4月发布),谷歌是真的支棱起来了!
首先这个Apache 2.0许可证,绝对的真·开源。不像某些模型(对,我就是在说Llama),用着用着就怕律师函。Gemma 4你可以随便商用,随便改,随便分发,谷歌不会过来找你要钱。这就很舒坦,对吧?
而且这次版本特别多,从1B到31B都有。最重要的是那个26B A4B版本,这是个MoE架构(混合专家模型),平时只激活4B参数,但是效果能跟13B的模型干一架!关键是显存占用只有20GB左右,我的RTX 4090居然能跑起来,这谁顶得祝啊?
还有原生多模态,能看图、能听声音、能输出文本。我试了一下让它分析我手机拍的代码截图,识别准确率99%,连注释里的错别字都能揪出来,就离谱!
龙虾(OpenClaw)又是啥?
可能有些小伙伴还不知道"龙虾"是啥。其实就是OpenClaw,谐音梗,圈内人都这么叫。这玩意儿在GitHub上已经狂揽25万+星标,是目前最火的开源AI Agent框架。
说白了,它就是个"AI打工人"调度中心。你可以给它装各种技能(skills),比如查邮件、改代码、搜网页、操作数据库...然后Gemma 4当大脑,指挥这些技能干活。而且完全本地运行,你的数据不会跑到别人的服务器上,隐私这块拿捏得死死的。
我之前用Claude Code的时候,总担心代码泄露。现在好了,全崽本地跑,公司机密文件随便丢给它分析,完全不慌。
重头戏:三步连上,有手就行!
好,进入正题。谷歌官方出的这个教程,真的简当到离谱。我这种半吊子水平都能一遍成,你肯定没问题。
第一步:装Ollama
这个不用我多说了吧?本地跑模型的神器。去ollama.com下载,支持Windows、Mac、Linux。安装包就几十MB,一分钟搞定。
装完之后记得检查一下版本,尽量用最新的0.9.x版本,对Gemma 4的支持更好。怎么检查?终端输入:
ollama --version
看到版本号就OK了。如果提示command not found,那可能是环境变量没配好,重启一下电脑试试。
第二步:拉取Gemma 4模型
这里要根据你的硬件情况选对版本,别瞎搞!官方推荐的是26B A4B,但是你的电脑不一定带得动。我给大家列个清单:
- E2B版本(1.5B参数):8GB内存就能跑,适合轻薄本。效果嘛...勉强能用,写个邮件啥的可以,复杂代码就算了。
- E4B版本(4B参数):8-12GB显存,普通游戏本能跑。这个性价比最高,日常开发够用。
- 26B A4B版本(26B总参数,4B激活):16GB+显存,RTX 4080/4090或者Mac Studio M2 Max以上。效果炸裂,强烈推荐!
- 31B Dense版本:24GB+显存,富哥专属,效果跟GPT-4o差不多。
我选的是26B A4B,命令很简单:
ollama pull gemma4:26b
等等就好了,模型大概20GB左右,网速快的话半小时下完。下载的时候可以去做点别的,别盯着进度条看,会焦虑的...
第三步:配置OpenClaw连上Ollama
这一步最关键!也是最容易踩坑的地方。很多人(包括我一开始)都搞错了API地址,结果连不上。
首先确保Ollama在运行,终端输入:
ollama serve
看到"Listening on 127.0.0.1:11434"就对了。然后配置OpenClaw,编辑~/.openclaw/openclaw.json这个文件。如果你找不到这个文件,先运行一次openclaw onboard生成配置。
重点来了!配置要这么写:
{
"agents": {
"defaults": {
"model": "ollama/gemma4:26b"
}
},
"models": {
"providers": {
"ollama": {
"baseUrl": "http://localhost:11434"
}
}
}
}
注意那个baseUrl,千万别加/v1!OpenClaw要用Ollama的原生API,不是OpenAI兼容模式。加了/v1的话,工具调用会失效,模型会输出一堆JSON原文,看着就头疼。
保存配置,重启OpenClaw,然后测试一下:
openclaw ask "你好,请介绍一下自己"
如果看到Gemma 4回复你了,恭喜你,搞定了!就是这么简单,真的三步。
避坑指南:我踩过的雷
虽然步骤简单,但我还是得唠叨几句,这些都是血泪教训。 第一,量化版本要选对。 如果你的显存不够,可以用Q4_K_M量化的版本,虽然智商稍微降一点点,但是能跑得起来比什么都强。命令改成ollama pull gemma4:26b-q4。 第二,上下文长度别设太长。 Gemma 4支持128K上下文,但是你本地跑的话,建议先设个8K试试。太长了真的会卡,尤其是生成到后面的时候,速度明显变慢。等确认流畅了再往高调。 第三,工具调用格式。 有时候Gemma 4会输出奇怪的工具调用格式,特别是复杂任务。这时候你要在system prompt里加一句:"请严格按照JSON格式输出工具调用",会稳定很多。亲测有效! 第四,内存泄漏问题。 长时间运行之后,Ollama可能会吃满内存。这时候别慌,重启一下Ollama服务就好了。我一般是写个脚本,每隔4小时自动重启一次,省心。
效果实测:到底能不能打?
我知道你们最关心这个。花这么大劲搭起来,效果不如云端的话,那不是白忙活?
直接说结论:日常开发任务,26B A4B版本能替代Claude 3.5 Sonnet,复杂推理还是略逊于GPT-4o。
我做了几个测试: 代码生成:让它写个Python爬虫,抓取知乎热榜。代码一次跑通,逻辑也没毛病。但是变量命名有点迷,用了拼音...这点不如Claude讲究。 代码审查:把我之前写的屎山代码丢给它,居然找出了3个潜在bug,还有一个内存泄漏点!这眼光,比我组长还毒辣。 多文件编辑:OpenClaw有个厉害的功能,可以一次改多个文件。我让它重构一个项目,把所有的var改成const,顺便优化一下异步处理。10个文件,5分钟搞定,一个都没漏。 工具调用准确率:这个真的惊艳到我了。官方数据显示26B在τ2-bench上得分85.5%,实际用起来确实稳。查日历、发邮件、搜网页,基本不会出错。偶尔有一次把"明天下午三点"理解错了,但总体可用性很高。
速度方面,我的RTX 4090,生成速度大概25token/秒。日常对话完全没问题,写长文的时候稍微等一下,可以接受。比云端慢是肯定的,但是不用花钱啊!这个性价比,还要啥自行车?
算笔账:到底能省多少钱?
我们来好好算一下。假设你是个重度用户,每天消耗100万token(大概相当于几百次API调用):
- Claude 3.5 Sonnet:输入15/百万token。假设输入输出对半,一天大概270,折合人民币1950元。
- GPT-4o:更贵,一个月下来3000元起步。
- Gemma 4本地部署:0元!电费忽略不计,4090跑一天也就几度电,几块钱的事。
也就是说,一个月省2000块,一年省2万4。一台Mac Studio的钱都省出来了!难怪有人说本地部署三个月就能回本,这账怎么算都香啊。
而且还没有并发限制,没有速率限制,没有网络延迟。凌晨三点想用它,随时开机就能用,不用等API响应,这种感觉就很爽,你懂的。
写在最后:这波真的不亏!
说真的,我以前对本地模型挺不屑的。总觉得是极客玩具,折腾半天效果还差。但是Gemma 4+OpenClaw这套组合拳,真的让我改观了。
谷歌这次放出来的26B MoE版本,绝对是良心之作。Apache 2.0许可证意味着你可以随便商用,不用担心法律风险。OpenClaw的生态也越来越完善,各种技能插件层出不穷。
当然,它也不是万能的。如果你要做那种需要超强推理能力的任务,比如数学证明、复杂算法设计,可能还是得调用云端API。但是日常的开发辅助、文档处理、数据分析,本地Gemma 4完全够用!
我已经把家里的老电脑都翻出来,组了个"AI集群",专门跑各种开源模型。这种感觉就像...嗯,像小时候集邮一样,只不过现在收集的是AI模型。每个模型都有自己的性格,有的擅长写代码,有的擅长聊天,很有意思。
好啦,教程就到这里。你学会了吗?有没有成功跑起来?或者说...在哪个步骤卡住了?评论区聊聊! 如果这篇对你有帮助,点个赞、转个发,让更多兄弟告别token焦虑!咱们下期见,拜拜!
想要系统学习AI的朋友可以去看看那个人工智能教程captainbed.cn/jj