高手进阶成本优化篇：：API 套餐几天就见底？Claude Code + DeepSeek V4 Token 管理深度解析与成本控制

Windows · Claude Code CLI · DeepSeek V4 API · settings.json · 2026-05-03

一、这篇教程解决什么问题

一句话定位：用 DeepSeek 当 Claude Code 后端，API 套餐几天就见底？这篇拆解 Claude Code 每次对话的 token 构成，给出六条可立刻落地的省费策略，把月账单压到 ¥30 以内。

阅读前提（硬条件，可逐条验证）：

Claude Code 已安装并能正常启动（终端输入 claude 能进入交互界面）
已有 DeepSeek API Key（前往 platform.deepseek.com 申请并充值 ≥ ¥10）
了解 settings.json 的基本结构（参考系列第六篇的配置章节）

读完能得到什么：

看懂 Claude Code 每次对话背后的 token 消耗构成——system prompt、工具定义、对话历史各自占多少
一份开箱即用的 settings.json 省费配置模板（DeepSeek V4-Flash + 缓存优化）和现有降本项目
掌握 /compact、模型切换、会话管理三条行为层面的省费习惯
会在 DeepSeek 控制台定位"烧钱"源头，设置余额告警

二、前置步骤：配置 DeepSeek 为 Claude Code 后端

如果你还没配好 DeepSeek 端点，先完成这一步。已经配好的跳到第三节。

2.1 settings.json 最小配置

打开 Claude Code 的 settings.json（位置：C:\Users\<用户名>\.claude\settings.json），写入：

{
  "env": {
    "ANTHROPIC_API_KEY": "sk-你的DeepSeek-API-Key",
    "ANTHROPIC_BASE_URL": "https://api.deepseek.com/anthropic",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "deepseek-v4-flash",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "deepseek-v4-flash",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "deepseek-v4-pro"
  }
}

关键解释：

1. ANTHROPIC_BASE_URL — Claude Code 原生调用 Anthropic API。设为 DeepSeek 的 Anthropic 兼容端点后，所有请求自动路由到 DeepSeek。ANTHROPIC_API_KEY 填的是 DeepSeek 的 Key，不是 Anthropic 的 Key。

2. 模型名白名单 — 最容易踩的坑：Claude Code 内置了 Anthropic 模型名白名单，model 字段只能填 sonnet、opus、haiku 这三个别名。直接写 deepseek-v4-flash 会被拒绝。然后通过 ANTHROPIC_DEFAULT_*_MODEL 环境变量把这些别名映射到 DeepSeek 的实际模型名。

3. 为什么 Sonnet/Haiku 都用 V4-Flash：日常编码 V4-Flash 就够了，便宜十倍。只有 Opus（最复杂任务）才路由到 V4-Pro。这样 Claude Code 在用子代理、读文件、搜索等轻量任务时自动走便宜模型，只有你要深度推理时才切 /model opus 走 V4-Pro。

2.2 验证配置

# 启动 Claude Code
claude

# 在 Claude Code 对话中直接问
用一句话回复我：你现在用的是什么模型？

预期输出类似：

我是 DeepSeek-V4-Flash，由深度求索公司开发。

如果返回 "Claude" 相关字样，说明端点没生效，检查 ANTHROPIC_BASE_URL 是否拼写正确（注意末尾不要多 /v1 或 /chat）。

三、理解 Claude Code 的 API 调用开销

3.1 一次对话的真实 token 构成

Claude Code 每次发给 DeepSeek 的请求，不是只有你写的那句话。实际发送的是一大包东西：

┌─ System Prompt ──────────────────────────┐
│ Claude Code 内置指令（角色、约束、规则）    │  ≈ 3000-6000 tokens
│ + 当前目录结构快照                        │  ≈ 500-1500 tokens
│ + CLAUDE.md 项目指令（如果有）             │  ≈ 0-3000 tokens
├─ 工具定义 ───────────────────────────────┤
│ 所有 tool 的 JSON Schema                  │  ≈ 2000-4000 tokens
│ （读文件、写文件、执行命令、搜索等）        │
├─ 对话历史 ───────────────────────────────┤
│ 之前的每一条用户消息 + 助手回复 + 工具调用   │  随轮次增长
├─ 当前消息 ───────────────────────────────┤
│ 你刚刚输入的内容                           │  ≈ 50-500 tokens
└───────────────────────────────────────────┘
= 总输入 tokens（全部按 DeepSeek 输入价格计费）

关键事实：即使你只打了一个字 "hi"，每次请求的输入 token 起步就是 8000+。这是 Claude Code 的"固定税"。

3.2 工具调用才是最烧 token 的环节

Claude Code 的工作模式是"读 → 想 → 做 → 再看 → 再做"的循环。一次"帮我改这个 bug"可能触发：

你: "帮我修复 extract_subtitles.py 里的 bug"
  → Claude: 调用 Read 工具读取文件  ← +文件内容（2000 tokens）
  → Claude: 调用 Grep 工具搜索相关代码 ← +搜索结果（1500 tokens）
  → Claude: 调用 Edit 工具修改代码 ← +diff 内容（800 tokens）
  → Claude: 调用 Bash 工具运行测试 ← +测试输出（3000 tokens）
  → Claude: 给你最终回复 ← +回复文本（500 tokens）

每一步都是一次独立的 API 调用，而且前面步骤的结果会累积到下一轮的输入中。

3.3 实测：一次典型交互的 token 消耗

步骤	输入 tokens	输出 tokens	累计费用（V4-Flash）
初始消息（含 system prompt）	~8500	~300（决定读文件）	¥0.009
读文件后继续	~11500	~400（决定改代码）	¥0.013
改代码后	~12800	~200（决定跑测试）	¥0.014
看测试结果	~16000	~250（最终回复）	¥0.018
合计	~48800 输入	~1150 输出	¥0.054

这是 V4-Flash 的单价。如果用的 V4-Pro（75% 折扣价），同样交互约 ¥0.18。

Claude Code 不是聊天工具——它是干活的。 一次"帮我改 bug"就触发 4-5 次 API 调用（读文件 → 搜索 → 编辑 → 跑测试 → 回复）。实打实写一天代码，100-200 次 API 调用是常态。

日调用量 V4-Flash 日费 V4-Pro 日费（折扣） V4-Flash 月费 V4-Pro 月费（折扣）
100 次 ¥5.4 ¥18 ¥162 ¥540
200 次 ¥10.8 ¥36 ¥324 ¥1080

看到了吗？用 V4-Pro 不做任何优化，月烧 300-1000 元非常容易。接下来每条策略都在砍这个数字。

日调用量	V4-Flash 日费	V4-Pro 日费（折扣）	V4-Flash 月费	V4-Pro 月费（折扣）
100 次	¥5.4	¥18	¥162	¥540
200 次	¥10.8	¥36	¥324	¥1080

四、六步省费策略

策略一：用 V4-Flash 而不是 V4-Pro（省 60-70%）

这条最重要，改一行配置就能落地。

DeepSeek V4 系列有两个模型：

维度	V4-Flash	V4-Pro
输入（缓存未命中）	¥1.00 / 百万 tokens	¥3.00 / 百万 tokens（75% 折扣）
输出	¥2.00 / 百万 tokens	¥6.00 / 百万 tokens（75% 折扣）
适合场景	日常编码、问答、翻译	复杂架构设计、数学推理

Claude Code 的日常编码工作，90% 用 V4-Flash 足够。 只有多文件重构、复杂算法设计才需要切 V4-Pro。

// settings.json — 通过别名映射实现模型分级
{
  "env": {
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "deepseek-v4-flash",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "deepseek-v4-flash",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "deepseek-v4-pro"
  }
}

在对话中临时切模型（注意：用的是 Claude Code 的别名，不是 DeepSeek 模型名）：

/model sonnet    ← 日常用，实际走 V4-Flash
/model haiku     ← 轻量任务（子代理、文件搜索），V4-Flash
/model opus      ← 复杂推理，实际走 V4-Pro

策略二：关闭 Thinking Mode（省 50-70% 输出费用）

DeepSeek V4 默认开启 Thinking Mode（链式推理）。模型在输出最终回答之前，先输出一段 reasoning_content（推理链），这部分也按输出价格计费。

实测对比：

任务	Thinking 开启（输出 tokens）	Thinking 关闭（输出 tokens）	倍数
简单翻译	~380	~80	4.7×
代码解释	~800	~150	5.3×
Bug 修复	~650	~180	3.6×

Claude Code 的大部分交互是"读文件 → 改代码 → 跑测试"，属于操作性任务而非推理任务，不需要 Thinking Mode。

DeepSeek 的 Anthropic 兼容端点默认行为取决于模型配置。当前 DeepSeek 的 /anthropic 端点对 Thinking Mode 的处理方式：在请求中显式传 thinking: {type: "disabled"} 才能关闭。

截至 2026 年 5 月，Claude Code 的 provider 配置还不原生支持控制 Thinking Mode 开关。实际省费策略：

用 /model deepseek-v4-flash 时，在 DeepSeek 平台侧确认默认行为。如果默认开启 Thinking → 考虑换 deepseek-chat（旧模型，行为更确定，2026-07-24 才弃用）
观察输出 token 数：同样的问题连续问两次，如果输出 tokens 波动很大（差几倍），说明 Thinking Mode 在起作用

何时该开 Thinking：架构设计、多文件重构方案、复杂算法实现。简单的做法是用 V4-Flash 做完日常操作，遇到需要深度推理的任务切 V4-Pro + /model deepseek-v4-pro。

策略三：善用 `/compact` 命令（省 30-50% 输入费用）

Claude Code 内置的 /compact 命令会把对话历史压缩为摘要，砍掉大部分历史 token，只保留关键上下文。

什么时候该 /compact：

对话超过 15 轮后（此时输入 token 通常已涨到 25000+）
上一个任务已经完成，准备开始新任务
感觉回复变慢（说明输入已经很大了）

# 在 Claude Code 对话中直接输入
/compact

输出示例：

Context compacted: 32 messages → summary (reduced ~18000 tokens)

注意：/compact 会丢失细节（之前聊的具体代码片段、报错日志等）。如果当前任务还没完，先别 compact。

策略四：一个任务一个会话（省 20-30% 总费用）

很多人习惯在一个 Claude Code 会话里连续做多个不相关的任务，导致对话历史越来越长。

更好的做法：

一个 bug 修复 → 一个会话，修完就结束
一个新功能 → 一个新会话
写完代码 → /compact 或开新会话，再做 code review

原因：Claude Code 的 system prompt + 工具定义是固定开销（≈8000 tokens）。开一个新会话固然要重新交这笔税，但如果老会话已经滚到 30000+ tokens 的历史，继续用老会话比开新的更费钱。

算一笔账：

方式	输入 tokens（第 20 轮）	单次费用
一直用一个会话	~35000（历史滚雪球）	¥0.038
新开一个会话	~8500（只有固定开销）	¥0.009

新会话省了 4 倍输入费用。 但当任务本身需要之前的完整上下文时（比如在改同一个文件的不同部分），继续用老会话是对的——没有上下文的修改可能出错，出错重来更费钱。

策略五：控制并发和频率（防 429 + 控制日消耗）

DeepSeek 使用动态并发限制。Claude Code 的工作模式是顺序的（一个工具调用完成后再发下一个），一般不会触发并发限制。但在以下情况可能出问题：

同时开了多个 Claude Code 终端会话，每个都在发请求
用 Bash 工具批量调 API，在 Claude Code 里跑循环脚本

建议：

// settings.json — 如果你用 ECC 或自定义脚本批量调用
{
  "env": {
    "ANTHROPIC_API_KEY": "sk-你的Key",
    "ANTHROPIC_BASE_URL": "https://api.deepseek.com/anthropic"
  }
}

最多同时开 2 个 Claude Code 终端
不要在 Claude Code 里让它循环调用自身（会指数级烧 token）
出现 HTTP 429 时等 5 秒再继续

策略六：设置 DeepSeek 余额告警

在 DeepSeek 控制台设置，不需要写代码。

打开 platform.deepseek.com/top_up
查看当前余额和消费趋势
建议设置 低余额告警（比如余额 < ¥5 时短信/邮件通知）

此外，DeepSeek 控制台提供按天/按小时的用量图表，定期看一眼能快速发现异常：

某天费用突然翻倍 → 可能是有个脚本在循环调 API，或 Claude Code 会话没关一直在跑
凌晨有费用 → 检查是否有定时任务或 cron 在调 API
输入/输出比例异常（比如输出是输入的 5 倍） → Thinking Mode 可能在非必要地开启

五、settings.json 省费配置模板（开箱即用）

综合以上六条策略 + 社区验证的最佳实践，这是一份可直接粘贴的生产级配置：

{
  "env": {
    "ANTHROPIC_API_KEY": "sk-你的DeepSeek-API-Key",
    "ANTHROPIC_BASE_URL": "https://api.deepseek.com/anthropic",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "deepseek-v4-flash",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "deepseek-v4-flash",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "deepseek-v4-pro",
    "MAX_THINKING_TOKENS": "10000",
    "CLAUDE_MAX_CONTEXT_WINDOW": "200000",
    "CLAUDE_AUTOCOMPACT_PCT": "50",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
  }
}

逐字段解释：

字段	作用	省钱原理
`ANTHROPIC_DEFAULT_HAIKU_MODEL` = V4-Flash	子代理（读文件、搜索、探索）的模型	这些操作占了 API 调用量的大头，用最便宜的模型
`ANTHROPIC_DEFAULT_SONNET_MODEL` = V4-Flash	默认模型，覆盖 80% 的日常编码	性价比最优解
`ANTHROPIC_DEFAULT_OPUS_MODEL` = V4-Pro	只有显式 `/model opus` 时才走 Pro	复杂推理按需使用，不白烧钱
`MAX_THINKING_TOKENS` = 10000	限制每次请求的推理链 token 上限	默认 31999，砍到 10000 省掉 ~70% 隐藏推理费用
`CLAUDE_MAX_CONTEXT_WINDOW` = 200000	把上下文窗口从 1M 压到 200K	每次请求的输入上限降为 1/5，大幅减少单次调用费用
`CLAUDE_AUTOCOMPACT_PCT` = 50	在窗口用满 50% 时就触发自动压缩	默认 80-95% 触发太晚，压缩前已经浪费了大量 token
`CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC` = 1	关闭非必要后台请求	减少隐形 API 调用

关于 MAX_THINKING_TOKENS：这个值控制 DeepSeek Thinking Mode 每次请求最多输出多少推理链 token。设为 10000 意味着复杂任务仍然能深度推理，但不会失控飙到 30000+。简单任务（翻译、格式化）可考虑在对话中通过其他方式关闭 Thinking。

如果你用了 ECC（第六篇）

ECC 仓库里有一份官方 token-optimization.md，建议在 rules 里追加省费规则：

# 省费规则
- 每个任务完成后主动提示用户是否需要 /compact
- 发现对话超过 20 轮时，提示用户考虑开新会话
- 简单代码操作（读文件、格式化、翻译）默认关 thinking
- 子代理任务用 haiku，不要用 sonnet/opus

六、月度费用估算

以 "每天 150 次 API 调用，每次平均 15000 输入 + 600 输出 tokens，每月 30 天"的实打实编码工作为例（注意这是 Claude Code 的实际工作模式——每次工具调用都算一次 API 请求，150 次/天是正常编码节奏）：

配置	日费用	月费用
V4-Pro + Thinking 全开 + 长会话	¥10-15	¥300-450
V4-Pro + 简单任务关 Thinking	¥5-8	¥150-240
V4-Flash + Thinking 全开	¥3-5	¥90-150
V4-Flash + 关 Thinking（简单任务）	¥2-3	¥60-90
V4-Flash + 关 Thinking + `/compact` + 短会话	¥1-2	¥30-60

从 ¥450 压到 ¥30——差距 15 倍。最上面那行就是"月烧 300"的真相：V4-Pro 默认 Thinking 全开、一个会话用一整天、从不 compact。最下面那行是把六条策略全用上之后的数字。

省到极端也有反效果——为省钱不开 Thinking，复杂推理任务出错重来，反而更贵。建议目标：V4-Flash + 简单任务关 Thinking + 定期 /compact，月费 ¥30-60，这是性价比最优区间。

七、社区方案与工具——别人已经造好的轮子

前面六条策略是你自己可以做的。这一章介绍社区已经存在的项目和工具，能进一步帮你在 Claude Code 上省 DeepSeek 费用。

7.1 claudecode-deepseek-stack：一键配置方案

GitHub: MG-Cafe/claudecode-deepseek-stack

最直接的项目——专门做 Claude Code + DeepSeek 的配置。作者实测：一天 412 次工具调用，总花费 $6.84（Anthropic Opus 同等量级需三位数美元）。成本直降 95 倍。

它做的事情就是本文第二章和第五章讲的那些配置，但封装成了即用方案。核心思路和本文一致：通过 ANTHROPIC_DEFAULT_*_MODEL 做模型分级映射。

7.2 claude-code-router：多模型智能路由

npm: @musistudio/claude-code-router

如果你不只满足于"DeepSeek 一种后端"，还想把 Gemini、GLM、Ollama 本地模型也用上——这个工具提供了一个可视化 Web 管理界面，按场景自动把请求路由到不同模型：

你: "帮我修这个 bug"
  → Router 判断: 日常编码任务 → 路由到 DeepSeek V4-Flash

你: "设计这个模块的架构"
  → Router 判断: 深度推理任务 → 路由到 DeepSeek V4-Pro（或 Claude Opus）

核心配置示例：

{
  "Router": {
    "default": "deepseek,deepseek-chat",
    "think": "deepseek,deepseek-reasoner",
    "background": "ollama,qwen2.5-coder:latest",
    "longContext": "openrouter,google/gemini-2.5-pro",
    "longContextThreshold": 60000
  }
}

default — 日常编码走 DeepSeek
think — 推理/Plan Mode 走 DeepSeek Reasoner
background — 后台任务走本地 Ollama（免费）
longContext — 上下文超过 60000 tokens 自动切 Gemini（长上下文处理更强）

适合：有多个 API Key、想极致省钱的用户。把"体力活"路由到本地免费模型，"脑力活"才用付费 API。

7.3 houtini-lm：MCP 任务分流

npm: @houtini/lm

一个 MCP 服务器，让 Claude Code 把边界清晰的简单任务分流到更便宜的模型执行，Claude 只负责架构决策和最终 QA。

工作原理：

Claude Code（主编，负责规划 + 审查）
  │
  ├─ 复杂推理、架构设计 → Claude 自己做
  │
  └─ 体力活 → houtini-lm → 便宜模型执行
       · 生成测试桩
       · 代码审查、解释函数
       · 写 commit message
       · 格式转换（JSON↔YAML）
       · 生成 mock 数据
       · 写类型定义

配置：

# 分流到 DeepSeek（最便宜的云端方案）
claude mcp add houtini-lm \
  -e HOUTINI_LM_ENDPOINT_URL=https://api.deepseek.com \
  -e HOUTINI_LM_API_KEY=sk-你的Key \
  -- npx -y @houtini/lm

# 或者分流到本地 Ollama（完全免费）
claude mcp add houtini-lm \
  -e HOUTINI_LM_ENDPOINT_URL=http://localhost:11434/v1 \
  -e HOUTINI_LM_MODEL=qwen2.5-coder:latest \
  -- npx -y @houtini/lm

每次分流调用都会显示节省统计：

💰 Claude quota saved — this session: 4,283 tokens / 7 calls

适合：日常编码量大的开发者。把 boilerplate 类工作丢给便宜模型，Claude 的 token 只用在刀刃上。

7.4 三个方案的定位对比

方案	适合谁	省费幅度	配置复杂度	核心思路
claudecode-deepseek-stack	所有 Claude Code + DeepSeek 用户	90-95%	⭐ 低（两行 env）	换后端
claude-code-router	有多个 API Key、想极致省钱	60-95%	⭐⭐ 中（JSON 配置）	智能路由
houtini-lm	编码量大、有本地 GPU	Token 级削减	⭐⭐⭐ 较高（MCP 配置）	任务分流

建议路线：先用 claudecode-deepseek-stack 的配置思路（本文第二章+第五章）把 DeepSeek 端点配好——这是省费的基本盘。日常编码量大到一定程度后，再考虑上 houtini-lm 做任务分流，或者上 claude-code-router 把本地 Ollama 也用起来。

八、Debug #1 — 模型配置不生效，用的还是 Anthropic

现象

# 在 Claude Code 里问
> 你用的是什么模型？
我是 Claude，由 Anthropic 开发的 AI 助手。

或者明显感觉费用不对——DeepSeek 控制台看不到对应用量。

根因分析

Claude Code 的 settings.json 中 ANTHROPIC_BASE_URL 配置没生效，请求仍然发往 Anthropic 官方 API。常见原因：

settings.json 位置不对：Claude Code 读的是 C:\Users\<用户名>\.claude\settings.json，不是项目目录下的
JSON 格式错误：配置文件有语法错误（比如多余的逗号），Claude Code 静默忽略
环境变量覆盖：系统环境变量中已有 ANTHROPIC_API_KEY，且它的值指向 Anthropic

一览对比表

维度	配置正确	配置不生效
settings.json 路径	`~/.claude/settings.json`	项目目录下
JSON 格式	严格合法	多余逗号/注释
环境变量冲突	无冲突	系统环境变量覆盖
验证方式	问模型"你是谁"	无验证

修复

# 1. 确认 settings.json 位置
ls $env:USERPROFILE\.claude\settings.json

# 2. 检查 JSON 格式
python -c "import json; json.load(open(r'$env:USERPROFILE\.claude\settings.json')); print('JSON OK')"

# 3. 检查环境变量冲突
echo $env:ANTHROPIC_API_KEY
# 如果有值但和 DeepSeek Key 不同 → 用下面的方式覆盖

// settings.json — 确保 env 在最外层
{
  "env": {
    "ANTHROPIC_API_KEY": "sk-你的DeepSeek-Key",
    "ANTHROPIC_BASE_URL": "https://api.deepseek.com/anthropic"
  },
  "model": "deepseek-v4-flash"
}

验证

# 重启 Claude Code 后测试
claude
# 输入: 用一句话告诉我你是什么模型
# 预期: 提到 DeepSeek 或 deepseek

九、Debug #2 — Claude Code 回复突然变慢或卡死

现象

# Claude Code 光标一直转，30 秒后才回复
# 或者直接报错
Connection error: The read operation timed out

根因分析

两种可能：

对话历史过长：输入 token 超过 50000+，DeepSeek 处理变慢
DeepSeek 服务高峰期：国内工作日白天（9:00-18:00）API 请求量大，动态并发限制收紧

一览对比表

维度	历史过长	高峰期
发生时机	对话后期（15 轮+）	任何时段
解决方案	`/compact` 或新会话	等几分钟重试
预防	定期 compact	避开高峰

修复

# 方案 1: 压缩上下文
/compact

# 方案 2: 如果 compact 无效，保存进度开新会话
# 先把当前的关键结论复制到记事本，然后 /clear

# 方案 3: 等待重试（高峰期）
# 通常 1-2 分钟后恢复正常

验证

# compact 后问一个简单问题测试响应速度
> 回复一个字：好
# 预期: 秒回

十、Debug #3 — DeepSeek 控制台显示大量费用但自己没用

现象

打开 platform.deepseek.com → 用量统计 → 今天已消费 ¥15.00
但你记得今天只用了 Claude Code 几次。

根因分析

API Key 泄露或共享。常见途径：

API Key 被提交到公开仓库（GitHub 上的 settings.json 没加 gitignore）
Key 被分享给他人，他人也在用
某个脚本在后台循环调 API（比如之前测试时跑的后台进程忘记关了）

修复

# 1. 立即在 DeepSeek 控制台重新生成 API Key
# https://platform.deepseek.com/api_keys → 删除旧 Key → 创建新 Key

# 2. 检查是否有后台进程
Get-Process python -ErrorAction SilentlyContinue

# 3. 检查 git 仓库是否泄露了 Key
cd C:\Users\<用户名>\.claude
git log --all --full-history -- '**/settings.json'

验证

# 更新 settings.json 中的 Key 为新 Key
# 重启 Claude Code
claude
# 确认能正常使用 → 去 DeepSeek 控制台看旧 Key 的用量是否停止增长

十一、日常维护

11.1 Claude Code 内置诊断命令

这几个命令在对话中输入即可，是日常省费的"仪表盘"：

命令	作用	使用频率
`/cost`	查看本会话和昨日的 token 消耗与费用	每天开始工作时
`/context`	查看当前上下文使用情况（总 token 数、各模块占比）	感觉回复变慢时
`/compact`	压缩对话历史为摘要，释放上下文	每 15 轮或任务切换时
`/clear`	清空对话开新会话	任务完全结束后
`/model sonnet`	切到 Sonnet 别名（实际走 V4-Flash）	默认保持
`/model opus`	切到 Opus 别名（实际走 V4-Pro）	复杂推理任务时

# 每天开始工作时的标准操作
/cost          # 看昨天花了多少钱
/context       # 确认上下文干净
/model sonnet  # 确认用的是便宜模型

11.2 每日检查（30 秒）

打开 platform.deepseek.com/top_up，扫一眼：

今日消费是否在预期范围（优化后 V4-Flash 正常 ¥1-4/天；如果看到 ¥10+ 检查是否误用了 V4-Pro 或 Thinking 全开）
是否有异常峰值

11.3 每周检查（2 分钟）

本周总费用是否在预算内（优化后合理范围 ¥20-50/周，重度使用 ¥60-100/周）
V4-Pro 的用量占比（如果 > 30%，考虑多用 V4-Flash）

11.4 Key 轮换

建议每 3 个月更换一次 API Key：

DeepSeek 控制台 → 创建新 Key
更新 settings.json 中的 ANTHROPIC_API_KEY
删除旧 Key

十二、速查卡

12.1 省费策略效果速查

策略	节省幅度	实施难度	一句话操作
默认用 V4-Flash	60-70%	低	settings.json 改一行
简单任务关 Thinking	50-70% 输出	中	观察输出 token，必要时换模型
定期 `/compact`	30-50%	低	每 15 轮执行一次
短会话	20-30%	低	一个任务一个会话
限制并发	防 429 + 控总量	低	最多 2 个终端
余额告警	防爆单	低	DeepSeek 控制台设置

12.2 Claude Code 省费命令速查

命令	作用	使用时机
`/compact`	压缩对话历史	15 轮后 / 任务完成后
`/model deepseek-v4-flash`	切到便宜模型	日常默认
`/model deepseek-v4-pro`	切到强推理模型	复杂架构/算法
`/clear`	清空对话开新会话	任务完全结束后
`Ctrl+C`	中断当前请求	回复太长或跑偏时

12.3 关键配置字段速查

字段	位置	值	说明
`model`	settings.json	`"deepseek-v4-flash"`	默认模型
`ANTHROPIC_BASE_URL`	settings.json → env	`"https://api.deepseek.com/anthropic"`	DeepSeek 端点
`ANTHROPIC_API_KEY`	settings.json → env	`"sk-你的Key"`	DeepSeek API Key

12.4 常见报错 → 解决方案

报错	原因	解决
`AuthenticationError` (401)	API Key 无效	检查 Key 是否正确复制，余额是否 > 0
`RateLimitError` (429)	并发超限	等 5 秒重试，减少同时运行的终端数
`Connection error` / 超时	网络问题或高峰期	等 1-2 分钟重试
回复明显变慢	对话历史过长	`/compact`
DeepSeek 控制台费用异常高	Key 泄露或后台脚本	立即重置 Key

十三、参考文献

DeepSeek Models & Pricing — V4 系列定价、模型参数、折扣有效期
DeepSeek Context Caching — 缓存命中规则（Claude Code 的固定 system prompt 天然利于缓存命中）
DeepSeek Thinking Mode — Thinking Mode 控制参数与多轮对话中推理链的处理
DeepSeek Rate Limit — 动态并发限制机制
DeepSeek Platform — API Key 管理、余额充值、用量查看
Claude Code Settings — Claude Code settings.json 配置文档
claudecode-deepseek-stack — Claude Code + DeepSeek 一键配置方案，实测成本降 95 倍
claude-code-router — 多模型智能路由网关，可视化配置，按场景分派不同后端
houtini-lm — MCP 任务分流服务器，将 boilerplate 类工作 offload 到便宜模型
ECC Token Optimization — ECC 官方 token 优化文档
Claude Code 第三方供应商使用指南 — 社区整理的第三方 API 接入深度解析
Claude Code + DeepSeek V4 接入教程 — CSDN 上的配置实战验证

高手进阶 成本优化篇：：API 套餐几天就见底？Claude Code + DeepSeek V4 Token 管理深度解析与成本控制

一、这篇教程解决什么问题

二、前置步骤：配置 DeepSeek 为 Claude Code 后端

2.1 settings.json 最小配置

2.2 验证配置

三、理解 Claude Code 的 API 调用开销

3.1 一次对话的真实 token 构成

3.2 工具调用才是最烧 token 的环节

3.3 实测：一次典型交互的 token 消耗

四、六步省费策略

策略一：用 V4-Flash 而不是 V4-Pro（省 60-70%）

策略二：关闭 Thinking Mode（省 50-70% 输出费用）

策略三：善用 /compact 命令（省 30-50% 输入费用）

策略四：一个任务一个会话（省 20-30% 总费用）

策略五：控制并发和频率（防 429 + 控制日消耗）

策略六：设置 DeepSeek 余额告警

五、settings.json 省费配置模板（开箱即用）

如果你用了 ECC（第六篇）

六、月度费用估算

七、社区方案与工具——别人已经造好的轮子

7.1 claudecode-deepseek-stack：一键配置方案

7.2 claude-code-router：多模型智能路由

7.3 houtini-lm：MCP 任务分流

7.4 三个方案的定位对比

八、Debug #1 — 模型配置不生效，用的还是 Anthropic

现象

根因分析

一览对比表

修复

验证

九、Debug #2 — Claude Code 回复突然变慢或卡死

现象

根因分析

一览对比表

修复

验证

十、Debug #3 — DeepSeek 控制台显示大量费用但自己没用

现象

根因分析

修复

验证

十一、日常维护

11.1 Claude Code 内置诊断命令

11.2 每日检查（30 秒）

11.3 每周检查（2 分钟）

11.4 Key 轮换

十二、速查卡

12.1 省费策略效果速查

12.2 Claude Code 省费命令速查

12.3 关键配置字段速查

12.4 常见报错 → 解决方案

十三、参考文献

高手进阶成本优化篇：：API 套餐几天就见底？Claude Code + DeepSeek V4 Token 管理深度解析与成本控制

策略三：善用 `/compact` 命令（省 30-50% 输入费用）