上一篇文章我们分析了Agent Loop的多轮交互机制,解释了为什么Claude Code/Codex会消耗大量Token。那么问题来了:有没有办法既享受AI编程的便利,又不用为高昂的API账单发愁?答案是肯定的。本文将深入解读大模型的提示缓存和MCP协议,告诉你如何把成本降低50%以上。
第3篇:省钱秘籍:提示缓存与MCP协议解读
一、提示缓存:大模型API的隐藏功能
1. 缓存里存了什么?
每次调用大模型的API,AI编程工具都会在消息前面自动附加一堆“固定内容”:
| 缓存内容 | 大小 | 说明 |
|---|---|---|
| 系统提示词 | 1,000-2,000 Token | “你是一个AI编程助手,可以使用以下工具...” |
| 工具定义 | 2,000-5,000 Token | Glob、Read、Edit等工具的完整描述 |
| 项目规范 | 500-3,000 Token | 从CLAUDE.md读取的规则 |
| 环境信息 | 100-500 Token | 操作系统、当前路径等 |
这些内容在每一次API请求中都会被发送,但它们几乎不会变化——这是缓存的理想对象。
2. 缓存如何工作?
| 时间点 | 事件 | 缓存状态 |
|---|---|---|
| 10:00:00 | 第1次API请求 | 无缓存,写入(支付完整价格) |
| 10:00:03 | 第2次API请求 | 命中(支付1/10价格) |
| 10:00:07 | 第3次API请求 | 命中 |
| 10:00:12 | 第4次API请求 | 命中 |
| 10:05:00 | 缓存过期 | 清除(DeepSeek有效期更长) |
3. 三大模型缓存对比
核心结论:提示缓存是大模型服务商在API层面提供的功能,不是AI编程工具的功能。DeepSeek、Claude、OpenAI都支持,DeepSeek甚至是全球率先大规模采用硬盘缓存的先行者之一。
| 特性 | DeepSeek | Claude | OpenAI |
|---|---|---|---|
| 推出时间 | 2024年8月 | 2024年5月 | 2024年9月 |
| 缓存价格 | ¥0.1/1M Token(1/10) | 写入付费,读取约1/10 | 读取约1/10 |
| 有效期 | 几小时到几天 | 5分钟 | 5-10分钟 |
| 启用方式 | 默认开启 | 需cache_control标记 | 自动(≥1024 Token) |
DeepSeek的独特优势:有效期更长(几小时到几天),意味着你下一条消息(半小时后)可能仍然命中缓存。
4. 缓存命中能省多少钱?
以我们上一篇文章的4轮任务为例:
| 项目 | 无缓存 | 有缓存 |
|---|---|---|
| 固定前缀(每轮) | 4,000 Token | 4,000 Token |
| 缓存命中折扣 | - | 90% off |
| 固定前缀成本 | 100% | 10% |
| 总成本节省 | - | 约40-50%以上 |
如果使用DeepSeek(¥1/1M Token vs ¥15/1M Token),再叠加缓存,成本可以降到Claude的1/500甚至更低。
二、接入DeepSeek/MiniMax:成本直降50%以上
既然DeepSeek这么便宜,能不能让Claude Code/Codex用DeepSeek?答案是可以的。
方式1:Codex原生支持DeepSeek
bash
# 设置DeepSeek API Key
export DEEPSEEK_API_KEY="your-api-key"
# 启动Codex,指定使用deepseek
codex --provider deepseek
方式2:Codex接入MiniMax
编辑~/.codex/config.toml:
toml
[model_providers.minimax]
name = "MiniMax Chat Completions API"
base_url = "api.minimaxi.com/v1"
env_key = "MINIMAX_API_KEY"
wire_api = "chat"
[profiles.m27]
model = "codex-MiniMax-M2.7"
model_provider = "minimax"
启动:
bash
export MINIMAX_API_KEY="your-key"
codex --profile m27
方式3:Claude Code通过MCP接入DeepSeek
bash
# 一条命令完成安装和配置
claude mcp add -s user deepseek npx @arikusi/deepseek-mcp-server \
-e DEEPSEEK_API_KEY=你的API密钥
注:Claude Code 接入 MiniMax 的方式与接入 DeepSeek 类似,可通过 MCP Server 实现,具体配置可参考 MiniMax 官方文档。
成本对比
| 模型 | 输出价格 | 4轮任务成本 | 相对成本 |
|---|---|---|---|
| Claude Sonnet 4.6 | $15 / 1M Token | $0.30 | 375倍 |
| GPT-5.1-Codex-Max | $10 / 1M Token | $0.20 | 250倍 |
| MiniMax M2 | ¥3 / 1M Token (~$0.42) | $0.008 | 10倍 |
| DeepSeek-V3.2 | ¥0.28 / 1M Token (~$0.04) | $0.0008 | 1倍 |
用DeepSeek驱动,成本只有Claude的1/375。一天做20次任务,Claude要0.016。
三、MCP协议:AI世界的USB-C接口
MCP(Model Context Protocol)是Anthropic推出的开放标准,目标是让AI工具能像USB-C一样“即插即用”地连接各种外部服务或工具。
1. 为什么需要MCP?
在MCP出现之前,每个AI工具接入外部服务都需要写定制代码:
- Claude要连GitHub,写一套代码
- Cursor要连GitHub,再写一套代码
- Windsurf要连GitHub,再写一套
MCP的价值:一次开发,处处可用。开发者只需写一个MCP Server,所有支持MCP的AI工具都能调用。
2. Claude Code/Codex工具的原生能力与MCP工具比较
| 能力类型 | 是否需要MCP | 实现方式 |
|---|---|---|
| 读写本地文件 | ❌ 不需要 | 原生内置工具 |
| 搜索代码 | ❌ 不需要 | 原生内置工具 |
| 执行Shell命令 | ❌ 不需要 | 原生内置工具 |
| 连接GitHub | ✅ 需要 | MCP Server |
| 查询数据库 | ✅ 需要 | MCP Server |
| 调用Jira/Linear | ✅ 需要 | MCP Server |
简单理解:
- 原生工具:Claude Code/Codex自带的,管的是你的本地电脑
- MCP工具:不在Claude Code/Codex安装包,需要额外安装,管的是外部世界(GitHub、数据库、项目管理等)
3. MCP生态现状
| 参与者 | 进展 |
|---|---|
| 模型厂商 | OpenAI已在Agent SDK中接入MCP;Anthropic是发起者 |
| 开发工具 | Cursor、Windsurf、VS Code Cline等均已支持 |
| MCP Server数量 | Hugging Face已超1000个;MCP.so聚合超10,000个 |
| 云厂商 | 阿里云百炼已上线110+款MCP服务 |
4. 对微信小程序开发的意义
微信官方在2025年11月发布的开发者工具2.0中提到:AI模型能够通过MCP或API方式直接获取调试控制台的信息,并与编辑器和模拟器进行交互。
这意味着可以:
- 在Claude Code中直接说“帮我修复这个报错”
- AI自动读取微信开发者工具的调试信息
- AI自动定位代码问题并修复
四、实战建议:如何选择你的方案
| 你的情况 | 推荐方案 | 预估月成本 |
|---|---|---|
| 偶尔使用,想体验 | DeepSeek对话(免费版) | ¥0 |
| 日常开发,追求性价比 | Claude Code/Codex (+DeepSeek API) | ¥10-50 |
| 团队协作,需要GitHub集成 | Codex (+ DeepSeek) + GitHub MCP | ¥50-200 |
| 大型项目,追求代码质量 | Claude Code (+ DeepSeek) + MCP | ¥50-200 |
五、总结
| 核心要点 | 说明 |
|---|---|
| 提示缓存 | 大模型API的隐藏功能,可节省40-50%成本 |
| DeepSeek优势 | 价格低、缓存有效期长,成本仅为Claude的1/375 |
| 接入方式 | Codex原生支持DeepSeek,Claude Code可通过MCP接入 |
| MCP协议 | AI的USB-C接口,让工具能连接外部服务 |
| 其他 | 微信开发者工具支持MCP,可实现自动调试。 |
一句话总结:用DeepSeek驱动Claude Code/Codex,既能享受智能体编程的强大能力,又能把成本控制在可接受范围。配合MCP生态,未来还能实现更多自动化能力。
到此,解密Claude Code与Codex:智能体编程的工作机制三篇文章全部结束。
本文内容基于作者的开发经验和对官方文档的理解,仅供参考。技术工具、模型参数、定价等信息可能随时间变化,请以官方最新发布为准。如有不同见解,欢迎在评论区理性交流。
本文为原创内容,首发于微信公众号[机器人与人工智能爱好者]。未经本人书面授权,禁止任何形式的摘编、复制或用于商业用途,转载须注明出处。