前言
用 Claude Code 写代码确实爽,但如果你和我一样用的是便宜套餐,大概率会遇到一个问题:
额度用完了。
正写得起劲呢,突然被告知今天的配额已耗尽,只能干等。
最近在某技术社区看到一个实用的解决方案:额度用完后,无缝切换到本地开源模型继续干活。
亲测有效,分享给大家。
一、先查看你的额度使用情况
在 Claude Code 里输入:
/usage
可以看到当前额度剩余量和消耗速度。建议养成习惯,随时关注。
二、推荐的本地模型
目前表现较好的两个开源模型:
- GLM-4.7-Flash
- Qwen3-Coder-Next
如果你的显卡内存有限,可以选择量化版本,加载更快,占用更少,但代码质量会有所下降。
三、方法一:通过 LM Studio 连接
LM Studio 是一个本地运行开源模型的工具,界面友好,小白也能用。
步骤:
-
安装 LM Studio —— 官网下载即可
-
下载模型 —— 打开 LM Studio,搜索并下载你想用的模型(建议上下文窗口 > 25K)
-
启动服务并配置环境变量 —— 打开终端,依次执行:
# 启动本地服务
lms server start --port 1234
# 配置环境变量,让 Claude Code 指向本地服务
export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_AUTH_TOKEN=lmstudio
# 启动 Claude Code,指定使用本地模型
claude --model openai/gpt-oss-20b
- 确认当前使用的模型 —— 在 Claude Code 里输入:
/model
可以查看当前连接的是哪个模型,也可以随时切换回官方 Claude。
四、方法二:直接连接 llama.cpp
LM Studio 底层是基于开源项目 llama.cpp 的。
如果你不想装 LM Studio,可以直接安装 llama.cpp 并连接 Claude Code。网上有详细教程,搜一下就能找到。
不过说实话,除非你有微调模型的需求,否则 LM Studio 的方案更简单省事。
五、写在最后
需要客观看待的是,本地模型目前更适合作为备用方案,而不是完全替代。
在显卡配置有限的情况下,速度和代码质量都会明显弱于官方 Claude,但它的价值在于: 额度用完也能继续写代码 心流不中断 可随时切回官方模型 完全本地运行,隐私更可控
另外,如果你觉得本地部署还是太折腾,也可以考虑一些国内的中转或镜像方案。 我这边是和朋友一起搭过一套,稳定性还不错,主要是省去了环境配置的成本。
有需要的话可以看我主页或者私信,我可以把思路或注意事项交流一下。
对于需要长时间编码、又不想被额度限制打断心流的开发者来说,这些方案都值得一试。