分币不花免费用 Claude Code + Gemma 4：喂饭教程来了，15 分钟搞定Google 的开源模型 Gem

Google 的开源模型 Gemma 4 横空出世，我8G显存的笔记本都能有不错的输出速度和生成效果，甚至在手机上都能跑起来。于是我迫不及得地把它down下来配置到了我本地的claude code上，别说，效果还可以。

如果你有一台还过得去的笔记本， 15 分钟就能搭好。今天把这个流程完整走一遍。

Claude Code 本地化封面

你需要什么

不复杂，三样东西：

•VS Code （本文以VSC为例，其实各种vibe coding IDE都大同小异）

•Node.js 18 或更高版本 - 基础运行环境，缺的话一般都会自动安装

•至少 16GB 内存/8GB 显存（ollama的模型对内存也有最小需求，这里没有全部测试，如有错误请指正）

没了。没有隐藏付费，没有"免费试用然后自动续费"的套路。

内存决定了你能跑多快的模型——后面会说怎么选。

第一步：装 Ollama

Ollama 是什么？简单说，它是让你在本地跑 AI 模型的工具。

Mac 用户去 ollama.com/download[1] 下载安装包，跟装普通软件一样，双击就行。

Windows 同一个地址，下载 exe 安装。

Linux 用户一行命令：

curl-fsSLhttps://ollama.com/install.sh|sh

装完验证一下：

ollama--version

能输出版本号就说明没问题。

第二步：下载 Gemma 4

这是真正在你电脑上跑的 AI 模型。 Google 开源的，免费。

根据你的电脑配置选一个：

•8GB 内存：ollama pull gemma4:e2b（最轻量）

•16GB 内存：ollama pull gemma4:e4b（推荐，平衡速度和质量）

•32GB 内存：ollama pull gemma4:26b（最强）

下载文件 7GB 到 18GB ，第一次要等一会儿。下载完就永久在本地了，不需要再联网。

验证：

ollama list

能看到 gemma4 就说明下载成功。

模型下载选择指南

第三步：装 Claude Code

打开 VS Code ，按 Ctrl + Shift + X 打开扩展市场，搜 "Claude Code"。

装 Anthropic 官方出的那个。装完侧边栏会出现一个 ⚡ 图标。

第四步：把 Claude Code 接到本地模型

这一步是关键。

默认情况下 Claude Code 连的是 Anthropic 的云端。我们要把它重定向到你本地的 Ollama 。

操作：

1.按 Ctrl + Shift + P

2.搜索"打开用户设置 (JSON)"

3.粘贴以下配置：

"claude-code.env":
{
    "ANTHROPIC_BASE_URL":"http://localhost:11434",
    "ANTHROPIC_API_KEY":"",
    "ANTHROPIC_AUTH_TOKEN":"ollama"
}

这三行做了什么？

所有请求走 localhost:11434——也就是你本机的 Ollama 。 API Key 留空， Auth Token 写 ollama 。

没有任何数据离开你的电脑。

第五步：跑起来

两个终端，两个窗口。

终端一，启动 Ollama ：

ollama serve

让它保持运行，别关。

终端二，打开 VS Code ，点 ⚡ 图标，输入你下载的模型名——比如 gemma4:e4b。

然后直接跟它说话就行：

•"解释这个文件是干什么的"

•"帮我写一个处理用户输入的函数"

•"重构这段代码，让它更清晰"

本地运行效果展示

常见问题

连不上？

先确认 Ollama 在跑：ollama serve。没有启动的话 Claude Code 找不到本地服务。

要求登录？

你的 JSON 配置有问题。检查逗号、括号， JSON 格式很严格。

响应很慢？

模型太大了。换成 gemma4:e2b 试试。在 8GB 内存的机器上跑 26B 模型确实会卡。

模型找不到？

跑一下 ollama list，把显示的完整名称复制粘贴过去。

几个现实的问题

我不会告诉你"这完全替代了云端 Claude Code"——那不诚实。

实际上有几个明显的局限：

代码理解能力。 Gemma 4 虽然不错，但在复杂推理和多文件联动上，跟 Claude 3.5 Sonnet 还有差距。简单任务没问题，大型项目重构可能力不从心。

上下文长度。本地模型的上下文窗口比云端短。如果你让它读一个很大的代码库，可能读不全。

速度。 16GB 内存跑 e4b 版本，单次响应大概 3-8 秒，取决于任务复杂度。不算慢，但比云端直连还是有延迟。

但话说回来，这个方案的定位本来就不是"替代云端"。

它的价值在于：

•零成本——永远不花钱

•完全隐私——代码不出你的机器

•离线可用——断网也能用

对于个人学习、小型项目、敏感代码处理，这个组合够用了。

最后说一句

一年前，要在本地跑一个能写代码的 AI ，你得折腾半天——装 CUDA 、配 Python 环境、编译模型、调试依赖链。

现在，五个步骤， 15 分钟，一行代码不用写。

这个速度本身，就说明了一件事：AI 基础设施的门槛，正在以肉眼可见的速度降低。

以前是只有大公司玩得起的东西，现在是个人笔记本就能跑。

下次有人说"AI 太贵了用不起"——把这个教程发给他。

参考链接

[1] ollama.com/download: ollama.com/download