Claude Code 额度用完了？教你用本地模型无缝接力前言用 Claude Code 写代码确实爽，但如果你和我一

前言

用 Claude Code 写代码确实爽，但如果你和我一样用的是便宜套餐，大概率会遇到一个问题：

额度用完了。

正写得起劲呢，突然被告知今天的配额已耗尽，只能干等。

最近在某技术社区看到一个实用的解决方案：额度用完后，无缝切换到本地开源模型继续干活。

亲测有效，分享给大家。

一、先查看你的额度使用情况

在 Claude Code 里输入：

/usage

可以看到当前额度剩余量和消耗速度。建议养成习惯，随时关注。

二、推荐的本地模型

目前表现较好的两个开源模型：

GLM-4.7-Flash
Qwen3-Coder-Next

如果你的显卡内存有限，可以选择量化版本，加载更快，占用更少，但代码质量会有所下降。

三、方法一：通过 LM Studio 连接

LM Studio 是一个本地运行开源模型的工具，界面友好，小白也能用。

步骤：

安装 LM Studio —— 官网下载即可
下载模型 —— 打开 LM Studio，搜索并下载你想用的模型（建议上下文窗口 > 25K）
启动服务并配置环境变量 —— 打开终端，依次执行：

# 启动本地服务
lms server start --port 1234

# 配置环境变量，让 Claude Code 指向本地服务
export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_AUTH_TOKEN=lmstudio

# 启动 Claude Code，指定使用本地模型
claude --model openai/gpt-oss-20b

确认当前使用的模型 —— 在 Claude Code 里输入：

/model

可以查看当前连接的是哪个模型，也可以随时切换回官方 Claude。

四、方法二：直接连接 llama.cpp

LM Studio 底层是基于开源项目 llama.cpp 的。

如果你不想装 LM Studio，可以直接安装 llama.cpp 并连接 Claude Code。网上有详细教程，搜一下就能找到。

不过说实话，除非你有微调模型的需求，否则 LM Studio 的方案更简单省事。

五、写在最后

需要客观看待的是，本地模型目前更适合作为备用方案，而不是完全替代。

在显卡配置有限的情况下，速度和代码质量都会明显弱于官方 Claude，但它的价值在于：额度用完也能继续写代码心流不中断可随时切回官方模型完全本地运行，隐私更可控

另外，如果你觉得本地部署还是太折腾，也可以考虑一些国内的中转或镜像方案。我这边是和朋友一起搭过一套，稳定性还不错，主要是省去了环境配置的成本。

有需要的话可以看我主页或者私信，我可以把思路或注意事项交流一下。

对于需要长时间编码、又不想被额度限制打断心流的开发者来说，这些方案都值得一试。