【绵小咩陪你学AI】花了一晚上研究 AI Coding 的成本优化,我总结了一套可以直接上手的方案

0 阅读2分钟

先说个真实案例。社区里有个人之前每月 OpenClaw 花 150,后来做了三个改动,第二天醒来账单从150,后来做了三个改动,第二天醒来账单从 150 变成了 $6。降了 96%。

不是因为他降低了使用频率——该用照用。就是把几个默认配置改了改。

所以我想认真聊聊这个话题:AI Coding 的钱,到底是从哪里烧掉的,以及怎么实实在在地省下来。


image.png

你可能没意识到的三个"偷钱黑洞"

第一个:上下文雪球

AI Agent 每次执行工具调用,都会把之前的对话历史重新塞进上下文窗口。你让它修个 bug,它要读文件、跑测试、看日志、改代码、再测试……每一步都叠加。最终一次调试下来,token 消耗是发起请求时的 10-50 倍

这不是 bug,是 Agent 的工作方式决定的。

第二个:心跳空转

OpenClaw 默认每 30 分钟发一次"心跳"保活,检查有没有新任务。每次心跳都携带完整上下文(50-100KB)。

一天下来,单纯心跳就要消耗 2-3M tokens,折合每月 60150每年60-150。**每年 730-1825,就这么悄悄烧掉了,而且你什么都没干。**

第三个:旗舰模型用错了场景

模型输入价格输出价格
Claude Opus 4.6$5/M$25/M
GPT-5$10/M$30/M
DeepSeek V4 Flash$0.14/M$0.28/M
MiniMax M2.5$0.30/M$1.20/M

DeepSeek 的输出价格是 Claude Opus 的 九十分之一。但很多开发者的日常场景——格式化代码、简单审查、写点脚本——其实用 MiniMax 或 DeepSeek 就够了。旗舰模型的能力是强,但大多数场景根本不需要那么强的模型。


五个立刻能上手的方案

方案 1:分级路由(降 70-90%)

核心思路很简单:简单任务交给便宜模型,复杂任务再动用旗舰。

简单任务:格式转换、简单 bug 修复、代码审查(没有复杂逻辑的那种)、文档生成

复杂任务:大型重构、跨模块调试、需要深度推理的架构问题

OpenClaw 支持配置 fallback 模型:

agents:
  defaults:
    model:
      primary: minimax/minimax-m2.5
      fallbacks:
        - openai/gpt-5
        - anthropic/claude-opus-4.6

有个团队实测:原来每月 ¥3000 全用 GPT-5,改成"DeepSeek V4 主力 + Opus 兜底"后,每月 ¥800,覆盖了 90% 的场景。

方案 2:心跳优化(每天从 25降到2-5 降到 0)

最容易忽略的就是这个。

轻量方案:把心跳间隔从 30 分钟改成 45 分钟。一行配置,每月省 20-30% 心跳消耗。

agents:
  defaults:
    heartbeat:
      every: "45m"

激进方案:心跳完全不走 API,路由到本地 Ollama。token 消耗直接归零。

agents:
  defaults:
    heartbeat:
      provider: ollama
      model: llama3.2
心跳策略每日消耗每月成本
默认 30 分钟2-3M tokens$60-150
优化后 45 分钟1.3-2M tokens$40-100
Ollama 本地处理0$0

方案 3:上下文压缩(降 50-80%)

三个主流框架有不同的压缩哲学:

  • Claude Code:92% 才压缩,榨干上下文窗口最后一个 token
  • Gemini CLI:70% 就开始压缩,宁可频繁也要稳
  • Manus:从不压缩,把文件系统当终极上下文

对大多数人的建议:

  1. 定期用 /compact 命令手动压缩长对话(Claude Code 用户)
  2. 把项目背景信息写到 CLAUDE.md 里,不要每次都塞进上下文
  3. AGENTS.md 指定只加载相关文件,不要一次性塞整个仓库
# CLAUDE.md 示例
## 技术栈
- 前端:React 18 + TypeScript
- 后端:FastAPI + PostgreSQL

## 关键文件(只加载这些)
- src/api/routes/*.py
- src/models/*.py

方案 4:关掉 Fast Mode(立省 70%)

这是最容易的一步,也是效果最立竿见影的一步。

agents:
  defaults:
    reasoning:
      mode: standard

Fast Mode = 2.5x 费率换 1.5x 速度。做后台任务、批量处理、CI/CD 定时任务,这个交换条件根本不值。

关掉之后,130万的账单大概只需要130 万的账单大概只需要 30 万。

方案 5:按量计费 + 监控

别用包月套餐,用按量计费。不用不花钱,精确到每次请求。

然后设置一个每日用量提醒。超过 $10 立刻通知你。


一个可以立刻照着做的检查清单

今天就能动手的:

  • 把 reasoning mode 改成 standard
  • 心跳间隔从 30m 改成 45m
  • 主力模型从 Claude Opus 换成 MiniMax M2.5 或 DeepSeek V4
  • 设置每日用量提醒

这周内可以做的:

  • 配置分级路由
  • 精简 SOUL.md / AGENTS.md(删掉用不到的工具和技能)
  • 创建 CLAUDE.md,把项目背景写进去
  • 看看上周账单,找出消耗最高的那几个任务

长期习惯:

  • 每次让 Agent 干活之前先问一句:"这次大概会消耗多少 token?"
  • 每周看一次成本曲线,有异常立刻查
  • 新模型出来的时候对比一下价格,有时性价比会突然提升

最后说一句

AI coding 工具现在的问题不是"太贵",而是"默认配置太浪费"。上面这些方案,没有一个需要你降低使用体验——就是几个配置改一改。

廉价模型做主力,旗舰模型做兜底;心跳记得关,上下文别让它越来越臃肿。

就这么多。