Google 的开源模型 Gemma 4 横空出世,我8G显存的笔记本都能有不错的输出速度和生成效果,甚至在手机上都能跑起来。于是我迫不及得地把它down下来配置到了我本地的claude code上,别说,效果还可以。
如果你有一台还过得去的笔记本, 15 分钟就能搭好。今天把这个流程完整走一遍。
你需要什么
不复杂,三样东西:
•VS Code (本文以VSC为例,其实各种vibe coding IDE都大同小异)
•Node.js 18 或更高版本 - 基础运行环境,缺的话一般都会自动安装
•至少 16GB 内存/8GB 显存(ollama的模型对内存也有最小需求,这里没有全部测试,如有错误请指正)
没了。没有隐藏付费,没有"免费试用然后自动续费"的套路。
内存决定了你能跑多快的模型——后面会说怎么选。
第一步:装 Ollama
Ollama 是什么?简单说,它是让你在本地跑 AI 模型的工具。
Mac 用户去 ollama.com/download[1] 下载安装包,跟装普通软件一样,双击就行。
Windows 同一个地址,下载 exe 安装。
Linux 用户一行命令:
curl-fsSLhttps://ollama.com/install.sh|sh
装完验证一下:
ollama--version
能输出版本号就说明没问题。
第二步:下载 Gemma 4
这是真正在你电脑上跑的 AI 模型。 Google 开源的,免费。
根据你的电脑配置选一个:
•8GB 内存:ollama pull gemma4:e2b(最轻量)
•16GB 内存:ollama pull gemma4:e4b(推荐,平衡速度和质量)
•32GB 内存:ollama pull gemma4:26b(最强)
下载文件 7GB 到 18GB ,第一次要等一会儿。下载完就永久在本地了,不需要再联网。
验证:
ollama list
能看到 gemma4 就说明下载成功。
第三步:装 Claude Code
打开 VS Code ,按 Ctrl + Shift + X 打开扩展市场,搜 "Claude Code"。
装 Anthropic 官方出的那个。装完侧边栏会出现一个 ⚡ 图标。
第四步:把 Claude Code 接到本地模型
这一步是关键。
默认情况下 Claude Code 连的是 Anthropic 的云端。我们要把它重定向到你本地的 Ollama 。
操作:
1.按 Ctrl + Shift + P
2.搜索"打开用户设置 (JSON)"
3.粘贴以下配置:
"claude-code.env":
{
"ANTHROPIC_BASE_URL":"http://localhost:11434",
"ANTHROPIC_API_KEY":"",
"ANTHROPIC_AUTH_TOKEN":"ollama"
}
这三行做了什么?
所有请求走 localhost:11434——也就是你本机的 Ollama 。 API Key 留空, Auth Token 写 ollama 。
没有任何数据离开你的电脑。
第五步:跑起来
两个终端,两个窗口。
终端一,启动 Ollama :
ollama serve
让它保持运行,别关。
终端二,打开 VS Code ,点 ⚡ 图标,输入你下载的模型名——比如 gemma4:e4b。
然后直接跟它说话就行:
•"解释这个文件是干什么的"
•"帮我写一个处理用户输入的函数"
•"重构这段代码,让它更清晰"
常见问题
连不上?
先确认 Ollama 在跑:ollama serve。没有启动的话 Claude Code 找不到本地服务。
要求登录?
你的 JSON 配置有问题。检查逗号、括号, JSON 格式很严格。
响应很慢?
模型太大了。换成 gemma4:e2b 试试。在 8GB 内存的机器上跑 26B 模型确实会卡。
模型找不到?
跑一下 ollama list,把显示的完整名称复制粘贴过去。
几个现实的问题
我不会告诉你"这完全替代了云端 Claude Code"——那不诚实。
实际上有几个明显的局限:
代码理解能力。 Gemma 4 虽然不错,但在复杂推理和多文件联动上,跟 Claude 3.5 Sonnet 还有差距。简单任务没问题,大型项目重构可能力不从心。
上下文长度。本地模型的上下文窗口比云端短。如果你让它读一个很大的代码库,可能读不全。
速度。 16GB 内存跑 e4b 版本,单次响应大概 3-8 秒,取决于任务复杂度。不算慢,但比云端直连还是有延迟。
但话说回来,这个方案的定位本来就不是"替代云端"。
它的价值在于:
•零成本——永远不花钱
•完全隐私——代码不出你的机器
•离线可用——断网也能用
对于个人学习、小型项目、敏感代码处理,这个组合够用了。
最后说一句
一年前,要在本地跑一个能写代码的 AI ,你得折腾半天——装 CUDA 、配 Python 环境、编译模型、调试依赖链。
现在,五个步骤, 15 分钟,一行代码不用写。
这个速度本身,就说明了一件事:AI 基础设施的门槛,正在以肉眼可见的速度降低。
以前是只有大公司玩得起的东西,现在是个人笔记本就能跑。
下次有人说"AI 太贵了用不起"——把这个教程发给他。
参考链接
[1] ollama.com/download: ollama.com/download