分币不花免费用 Claude Code + Gemma 4:喂饭教程来了,15 分钟搞定

177 阅读4分钟

Google 的开源模型 Gemma 4 横空出世,我8G显存的笔记本都能有不错的输出速度和生成效果,甚至在手机上都能跑起来。于是我迫不及得地把它down下来配置到了我本地的claude code上,别说,效果还可以。

如果你有一台还过得去的笔记本, 15 分钟就能搭好。今天把这个流程完整走一遍。

Claude Code 本地化封面


你需要什么

不复杂,三样东西:

•VS Code (本文以VSC为例,其实各种vibe coding IDE都大同小异)

•Node.js 18 或更高版本 - 基础运行环境,缺的话一般都会自动安装

•至少 16GB 内存/8GB 显存(ollama的模型对内存也有最小需求,这里没有全部测试,如有错误请指正)

没了。没有隐藏付费,没有"免费试用然后自动续费"的套路。

内存决定了你能跑多快的模型——后面会说怎么选。

第一步:装 Ollama

Ollama 是什么?简单说,它是让你在本地跑 AI 模型的工具。

Mac 用户去 ollama.com/download[1] 下载安装包,跟装普通软件一样,双击就行。

Windows 同一个地址,下载 exe 安装。

Linux 用户一行命令:

curl-fsSLhttps://ollama.com/install.sh|sh 

装完验证一下:

ollama--version 

能输出版本号就说明没问题。

第二步:下载 Gemma 4

这是真正在你电脑上跑的 AI 模型。 Google 开源的,免费。

根据你的电脑配置选一个:

8GB 内存ollama pull gemma4:e2b(最轻量)

16GB 内存ollama pull gemma4:e4b(推荐,平衡速度和质量)

32GB 内存ollama pull gemma4:26b(最强)

下载文件 7GB 到 18GB ,第一次要等一会儿。下载完就永久在本地了,不需要再联网。

验证:

ollama list 

能看到 gemma4 就说明下载成功。

模型下载选择指南

第三步:装 Claude Code

打开 VS Code ,按 Ctrl + Shift + X 打开扩展市场,搜 "Claude Code"。

装 Anthropic 官方出的那个。装完侧边栏会出现一个 ⚡ 图标。

第四步:把 Claude Code 接到本地模型

这一步是关键。

默认情况下 Claude Code 连的是 Anthropic 的云端。我们要把它重定向到你本地的 Ollama 。

操作:

1.按 Ctrl + Shift + P

2.搜索"打开用户设置 (JSON)"

3.粘贴以下配置:

"claude-code.env":
{
    "ANTHROPIC_BASE_URL":"http://localhost:11434",
    "ANTHROPIC_API_KEY":"",
    "ANTHROPIC_AUTH_TOKEN":"ollama"
}

这三行做了什么?

所有请求走 localhost:11434——也就是你本机的 Ollama 。 API Key 留空, Auth Token 写 ollama 。

没有任何数据离开你的电脑

第五步:跑起来

两个终端,两个窗口。

终端一,启动 Ollama :

ollama serve 

让它保持运行,别关。

终端二,打开 VS Code ,点 ⚡ 图标,输入你下载的模型名——比如 gemma4:e4b

然后直接跟它说话就行:

•"解释这个文件是干什么的"

•"帮我写一个处理用户输入的函数"

•"重构这段代码,让它更清晰"

本地运行效果展示

常见问题

连不上

先确认 Ollama 在跑:ollama serve。没有启动的话 Claude Code 找不到本地服务。

要求登录

你的 JSON 配置有问题。检查逗号、括号, JSON 格式很严格。

响应很慢

模型太大了。换成 gemma4:e2b 试试。在 8GB 内存的机器上跑 26B 模型确实会卡。

模型找不到

跑一下 ollama list,把显示的完整名称复制粘贴过去。

几个现实的问题

我不会告诉你"这完全替代了云端 Claude Code"——那不诚实。

实际上有几个明显的局限:

代码理解能力。 Gemma 4 虽然不错,但在复杂推理和多文件联动上,跟 Claude 3.5 Sonnet 还有差距。简单任务没问题,大型项目重构可能力不从心。

上下文长度。本地模型的上下文窗口比云端短。如果你让它读一个很大的代码库,可能读不全。

速度。 16GB 内存跑 e4b 版本,单次响应大概 3-8 秒,取决于任务复杂度。不算慢,但比云端直连还是有延迟。

但话说回来,这个方案的定位本来就不是"替代云端"。

它的价值在于:

零成本——永远不花钱

完全隐私——代码不出你的机器

离线可用——断网也能用

对于个人学习、小型项目、敏感代码处理,这个组合够用了。

最后说一句

一年前,要在本地跑一个能写代码的 AI ,你得折腾半天——装 CUDA 、配 Python 环境、编译模型、调试依赖链。

现在,五个步骤, 15 分钟,一行代码不用写。

这个速度本身,就说明了一件事:AI 基础设施的门槛,正在以肉眼可见的速度降低

以前是只有大公司玩得起的东西,现在是个人笔记本就能跑。

下次有人说"AI 太贵了用不起"——把这个教程发给他。


参考链接

[1] ollama.com/download: ollama.com/download