【绵小咩陪你学AI】OpenClaw 创始人那张 $130 万的账单,到底意味着什么?

0 阅读6分钟

上个月底,OpenClaw 创始人 Peter Steinberger 在 X 上发了一张截图——30 天 OpenAI API 消费 $1,305,088 美元。6030 亿 tokens,760 万次请求,100 个 Codex 实例 7×24h 跑着。他 2 月刚加入 OpenAI,这笔钱由公司买单,但数字一出来,整个开发者社区还是炸了。


那张账单里,到底写了什么?

简单列一下关键数字:

  • 月消费:$1,305,088
  • 6030 亿 tokens,760 万次 API 请求
  • 日均烧掉 43,500,高峰那天43,500,高峰那天 19,985
  • 100 个 Codex 实例并发跑
  • 主力模型:GPT-5.5
  • 关键细节:这是开了 Fast Mode 的结果。关掉的话,大概只需要 $30 万

最后那条是重点。2.5 倍费率换 1.5 倍速度,这个交换条件到底值不值,其实挺值得琢磨的。


三个视角

社区里的人在吵什么

看到这张账单,开发者们的反应基本分三派:

第一派是"牛 X"型。他们觉得这就是 AI coding 的天花板——一个人带 100 个 agent,干掉一个中型工程团队的活儿,GitHub 30 万星、320 万用户,确实吓人。

第二派是"这不对劲"型。有个 X 用户说得比较直接:"得拿出点 100 万美元工程师干不了的事,不然这就是泡沫前奏。而且这还是补贴价。" 这话挺刺耳,但确实问到了点子上。

第三派是"我该怎么省点钱"型。这派人最多,他们关心的是:我的 OpenClaw 每天才跑几个小时,怎么每月也要烧掉几十美元?于是 context pruning、cache 调优、分级路由这些操作手册开始在社区里流传。

还有个挺有意思的观察:Steinberger 作为 OpenAI 员工可以无限烧 token 做实验,普通开发者却连 $20/天的空闲消耗都觉得心疼。这种资源不对等,不知道会拉出多大的创新差距。

用户/社区反应视角

1. 现象描述:一个"钞票打印机"级别的 API 账单

2026 年 5 月,OpenClaw 创始人 Peter Steinberger 在 X 上贴出一张 CodexBar 截图,显示其 30 天 OpenAI API 消费:1,305,088.81。对应6030亿tokens760万次请求,由约100Codex实例(GPT5.5主力驱动)持续运转产生。平均每天烧掉1,305,088.81。对应 6030 亿 tokens、760 万次请求,由约 100 个 Codex 实例(GPT-5.5 主力驱动)持续运转产生。平均每天烧掉 43,500,高峰日(5 月 15 日)单日达 $19,985.84。

背景:Steinberger 2026 年 2 月加入 OpenAI,这笔账单由 OpenAI 作为研发投入买单。他的三人团队用这 100 个 AI agent 做代码审查、安全扫描、issue 去重、自动修 bug、开 PR、监控性能回归、甚至参会并自动产出 PR——相当于一个中型工程团队的工作量输出。

2. 社区反应:两极分化下的深层焦虑

震撼与艳羡派:大量开发者表示"大开眼界",认为这展示了 AI coding 的终极形态。OpenClaw 本身就是 GitHub 史上增长最快的开源项目(30.2 万星、320 万用户),这张账单被部分人视为"未来的收据"——没有预算限制下 AI 开发的真实成本。

质疑与批评派:声音最为刺耳。X 用户 Jonathan 直言:"Bro,你得展示点价值 100 万美元工程师干不了的事,不然这就是前沿实验室泡沫破裂的前奏。这还是补贴价,真实成本得更高。" 这一观点击中要害——AI API 定价本就受到实验室烧钱抢市场的严重补贴,实际算力成本远高于此。

开发者实操圈的共鸣:Reddit r/openclaw、Hacker News 上,普通用户关注的是日常 token 消耗——有人测算仅 OpenClaw 的心跳机制每天就烧 20(月均20(月均 750)。开发者社区涌现大量"token 优化指南",从 context pruning、cache TTL 调优到 model routing,反映出普通用户与 Steinberger 之间巨大的资源鸿沟。

安全声誉的叠加效应:同期 OpenClaw 遭遇 ClawHub 投毒事件(380+ 恶意技能)、WebSocket 漏洞(CVE-2026-25253)、中国政府禁令等连环打击。天价账单在这种背景下被部分人解读为"烧钱掩盖问题"。

3. 新角度发现:隐形的"补贴鸿沟"与"信号扭曲"

角度一:补贴加速分层的"双轨制 AI"。Steinberger 的消费模式揭示了 AI 世界的隐性阶级分化:OpenAI 员工可以无上限烧 token 做实验,而普通开发者连每天 $20 的心跳空转都觉得肉疼。这不是简单的"富人更富",而是补贴带来的研发加速度差异——当一方在"token 无限"环境下探索极限,另一方在"token 成本敏感"下优化每一分钱,双方的产品进化速度差距将指数级拉大。

角度二:Fast Mode 成本谎言——70% 折扣背后的定价策略漏洞。Steinberger 反复强调"关掉 Fast Mode 能省 70%,相当于一个员工成本"。但这恰恰暴露了 API 定价的荒诞——同一个算力服务,仅因响应速度不同,价格可以差 3 倍以上。这本质上不是技术成本差异,而是 API 供应商通过"速度分档"实施的价格歧视。Steinberger 作为内部人员清楚这个漏洞,而外部开发者面对的是被"速度焦虑"驱动的全价账单。

角度三:token 账单成为"泡泡测温计"。社区对这张账单的激烈反应,深层释放的信号不是针对 Steinberger 个人,而是整个 AI 产业定价合理性的集体焦虑。当一个开源项目的开发 token 消耗超过大多数 AI 创业公司的总营收时,市场开始追问:这些 token 真的创造了同等价值吗?还是我们在用风险资本补贴一种不可持续的生产模式? 这可能是 AI 行业从"信仰驱动"走向"ROI 驱动"的分水岭时刻。

数字背后是什么

平均每次请求 79,342 tokens。普通聊天机器人一次请求大概 1-2K,这个数字是它的 40-80 倍。

为什么这么高?斯坦福有篇研究(arXiv:2604.22750)专门量化了这个问题:agentic coding 任务的 token 消耗是普通 code chat 的 1000 倍。原因倒不复杂——Agent 每执行一步操作,都要之前所有的对话历史重新塞进上下文里。你让 AI 修一个 bug,它可能要先读文件、跑测试、查日志、反复修改……每一步都叠加上去,最后一次调试轻轻松松消耗几十万 token。

更有意思的是,70-80% 的账单其实来自输入 token,而不是 AI 生成的代码。系统提示、工作区文件、历史记录,这些才是大头。

分析师视角:OpenClaw 天价 Token 账单定量分析

一、数据拆解:6030亿 Token / 760万次请求意味着什么?

基础指标: 30天消耗 6030亿 Token,发起的 API 请求 760万次,日均 201亿 Token、25.3万次请求。单日峰值 $19,985.84(206K 请求),主力模型为 GPT-5.5-2026-04-23。

单次请求画像: 平均每次请求约 79,342 Token(6030亿/760万)。这远高于常规聊天(~1-2K tokens/query),接近 SWE-bench 级别 agentic coding 任务的行业基准(1M-3.5M tokens/task)。按 GPT-5.5 标准 API 定价(5/Minput,5/M input, 30/M output;Priority=2.5x=12.50/12.50/75),单次请求原始成本约 0.600.80(标准模式),FastMode下升至0.60-0.80(标准模式),Fast Mode 下升至 1.50-2.00。

运营规模: 3人团队运维约 100个 Codex 代理 7×24h 运行,覆盖 PR review、安全扫描、Issue 去重、自动修复、性能监控、会议监听等全流程。相当于以 3 人的管理成本撬动传统 30-50 人团队的开发产出。

二、技术原因:AI 编程代理为何如此"烧 Token"?

核心机制(ReAct Loop 上下文累积): 斯坦福大学研究(arXiv:2604.22750)定量表明,agentic coding 任务的 Token 消耗是 code chat 的 1000倍。根本原因在于输入 Token 的指数级膨胀——Agent 每执行一步工具调用,都需将前序对话历史(原始指令 + 所有历史工具调用结果)重新注入上下文窗口。这形成"上下文雪球"效应:一次复杂调试可消耗 50万+ Token,SWE-bench 任务均值 1M-3.5M Token。

输入 Token 主导成本(而非输出): 与直觉相反,Agent 账单中 70-80% 成本来自输入 Token(系统提示+历史记录+工具返回),而非生成代码的输出 Token。OpenClaw 每次运行时构建的系统提示包含工具列表、技能元数据、工作区文件(AGENTS.md、SOUL.md 等)、运行时元数据,大文件按 20K 字符截断。

框架开销: 相比直接 API 调用(基准 1x),定制 ReAct 循环带来 2-4x 额外开销。OpenClaw 的多渠道接入、文件管理、浏览器操作等工具集进一步放大上下文体积。研究表明即使是同一任务,Token 消耗差异可达 30 倍,模型自身也无法事前预测成本。

三、成本结构分析:$1.3M 的构成与 Fast Mode 机制

官方定价锚点: GPT-5.5 标准 API 定价 5/百万输入Token5/百万输入 Token、30/百万输出 Token。Codex Pro 订阅 200/月,提供约200/月,提供约 5000-6000 的等效 API 价值。

Fast Mode 乘数效应(核心变量): OpenAI Codex Fast Mode 针对 GPT-5.5 以 2.5x 标准费率消耗积分,换取 1.5x 生成速度提升(GPT-5.4 为 2x 倍率)。Steinberger 明确 1.3M是该模式下的计费结果。关闭FastMode后原始API成本降至约1.3M 是该模式下的计费结果。关闭 Fast Mode 后原始 API 成本降至约 30万/月(降幅 70%)。

账单推演:

  • 标准模式成本估算:6030 亿 Token × 平均 ~1012/百万tokeninput+output加权)10-12/百万 token(input+output 加权)≈ 60-72万;加上代码审查、云端任务等附加费,与 Steinberger 所述 ~$30万(可能含员工折扣/积分兑换)部分吻合
  • Fast Mode 放大:2.5x 系数将 ~5260万的标准化成本推至52-60万的标准化成本推至 130万
  • 仍相当于约 60个 Codex Pro 订阅的总价值,揭示开发者付费与底层算力真实成本间的巨大鸿沟

商业模式启示: 当前 AI API 定价建立在模型厂商的主动补贴之上。$1.3M 账单由 OpenAI 全额买单(Steinberger 已于 2026年2月加入 OpenAI),本质是"Token 成本无限接近于零"假设下的极限压力测试。其核心命题是:当 Token 不再稀缺,软件开发的范式会发生什么变化?

对行业意味着什么

两件事挺值得注意:

Anthropic 和 OpenAI 的策略截然相反。 OpenAI 允许 OpenClaw 320 万用户以 $23/月订阅使用 Agent,Anthropic 却在封禁第三方 Agent 框架——理由是"算力消耗在经济上不可持续"。这两家对 Agent 商业化的判断完全不一样。

开源的算力鸿沟比我想象中大。 OpenClaw 是 MIT 协议,本地部署免费,但真实使用成本来自 API 调用。有 OpenAI 给他报销,他可以随便跑;普通开发者精打细算,两边产品迭代速度的差距会越拉越大。

综合视角:OpenClaw 天价账单对 AI 行业的趋势启示

背景:OpenClaw 创始人 Peter Steinberger 晒出 $130 万/月 token 账单(6030 亿 tokens、760 万次 API 请求),由其雇主 OpenAI 买单。事件引发行业对 AI 开发真实成本的广泛讨论。

一、行业影响:AI 工具开发的成本警示灯

Steinberger 的 130万账单不是炫耀,而是行业成本结构的压力测试结果。100Codex实例同时运行,承担PR审查、安全扫描、Issue去重、自动修复等工作,替代了中型工程团队——但代价是每月130 万账单不是炫耀,而是行业成本结构的压力测试结果。100 个 Codex 实例同时运行,承担 PR 审查、安全扫描、Issue 去重、自动修复等工作,替代了中型工程团队——但代价是每月 13 万~$130 万(取决于 Fast/Standard 模式)。这揭示了三个关键影响:

  1. 订阅模式与 API 成本之间的裂痕加深。OpenAI 允许 OpenClaw 320 万用户以 $23/月订阅使用 Codex,而 Anthropic 已封禁 Claude Pro/Max 用户在第三方 Agent 框架上的使用,理由是自主 Agent 的算力消耗在经济上不可持续。两种策略的分歧反映了行业尚未找到规模化盈利模型。
  2. 开源项目遭遇「算力鸿沟」。OpenClaw 虽是 MIT 开源、本地部署免费,但真实使用成本来自 LLM API 调用。普通开发者的 5 5~30/月与 Steinberger 的 $130 万形成鲜明对比,说明开源不等于低成本,有能力的企业才能释放 Agent 的全量潜力。
  3. 头部效应加剧。OpenClaw 35 万+ GitHub Stars、900+ 贡献者、320 万用户的生态优势,加上 OpenAI 注资,让它获得了巨头级别的研发资源。小团队即便有更好创意,也难以复制这种「免费烧算力做产品」的路径。

二、趋势判断:AI 开发成本的三种可能演变

趋势一:推理成本快速下降,但 Agent 复杂度同步上升

以 DeepSeek V3.2(0.40/百万输出tokens)和MiniMaxM2.50.40/百万输出 tokens)和 MiniMax M2.5(0.12 输入/$1.00 输出)为代表的廉价模型正在压缩推理成本。但 Agent 框架日趋复杂——多模态输入、长上下文(256K~1M tokens)、多 Agent 协作——每一次能力升级都在抵消模型降价的红利。

趋势二:「分级路由」成为基础设施标配

社区已形成清晰的成本策略:70-80% 的日常任务用廉价模型(Qwen3 Coder、MiniMax),复杂任务才路由至旗舰模型(Claude Opus/GPT-5.4 Pro)。这种智能路由将成为 Agent 框架的内置能力,类似今天的 CDN 和负载均衡。

趋势三:企业采购从「按席位」转向「按 Token 消耗」

Anthropic 抗拒按 Token 计价的 Agent 使用,OpenAI 则拥抱它。未来企业 AI 工具的定价将趋于混合模式:基础订阅覆盖轻量使用,重度 Agent 调用按实际 Token 结算。Steinberger 的账单会成为 CIO 做预算时的参考基准。

三、开发启示:普通开发者能从中学到什么?

  1. 不要默认使用旗舰模型。社区数据显示,用 MiniMax M2.5 替代 Claude Opus 作为日常默认模型,成本可降低 15-25 倍,而大多数场景体验损失极小。「高成本模型做兜底,低成本模型做主力」是最容易被忽视的省钱法则。
  2. 关注缓存和上下文压缩。OpenClaw 通过选择性文件加载(而非一次性加载整个仓库)和工具调用优化,将单次会话的 token 消耗降低一个数量级。对独立开发者来说,上下文管理能力 > 模型选择能力。
  3. 拥抱开源生态,降低锁定风险。OpenClaw 的插件体系已支持 230+ 模型、15,000+ 社区技能。开发者应构建「模型无关」的 Agent 工作流——今天用 GPT-5.4,明天切 DeepSeek V3.2,成本从 1,000/月降到1,000/月降到 30/月,功能几乎不变。
  4. 警惕「隐藏的自动化成本」。Steinberger 的 100 个 Agent 全年运行,标准模式也要 $360 万。社区报告显示,遗忘关闭的自动化工作流可占账单的 10-30%。算例是免费的,但 Agent 不睡觉——监控和预算上限必须从一开始就设计。

结语

Steinberger 自评这张账单是「来自未来的收据」——它展示了 AI 开发工具在满负荷运转下的经济真相。对行业而言,这不是警示故事,而是成本函数校准的起点。谁能在模型降价、智能路由、上下文压缩三个变量中找到最优解,谁就能在未来 AI 开发的「算力军备竞赛」中胜出。


几个我认为比较有意思的结论

Fast Mode 其实是个定价策略,不是技术必需。 2.5x 费率换 1.5x 速度,做代码审查、安全扫描这种后台任务,ROI 几乎为零。Steinberger 自己都说"关掉省 70%",这事本身就挺说明问题的。

上下文膨胀才是成本的主要驱动,而不是模型贵不贵。大家都盯着模型价格,但真正吃掉预算的其实是每次请求里越滚越大的历史记录。这块的优化空间比换模型大得多。

$130 万是张"来自未来的收据"。它展示的不是失控,而是"如果 token 足够便宜,软件怎么开发"的极限演示。真正的竞争,在于谁能在"模型降价 + 智能路由 + 上下文压缩"这套组合里找到最优解。