一、一个真实的故事
去年底,两家规模差不多的公司同时接入了GPT-4。
A公司:3个月后,AI账单4.7万。
B公司:3个月后,AI账单1.5万。
两家公司业务相似、人数相近、用的模型一样。为什么差了3倍?
我帮A公司做了个排查,发现问题出在三个字:看不见。
- 看不见谁在调用:不知道哪个部门花的钱最多
- 看不见为什么:不知道哪类问题消耗的Token最多
- 看不见浪费:不知道有多少重复调用、无效调用
A公司的技术总监说了一句话,让我印象很深:
“我们只知道每个月花了多少钱,但从来不知道花在哪了。”
这不是个别现象。
二、Token成本的三个“黑洞”
2.1 黑洞一:调用方不清晰
很多企业接入大模型的方式很简单:申请一个API Key,全公司共用。
结果就是:
- 研发部说“我们没怎么用”
- 运营部说“我们就偶尔用用”
- 月底账单出来,谁都不认
不知道谁在用,就不知道谁该负责。
2.2 黑洞二:场景不透明
同一个模型,不同场景的Token消耗差异巨大。
| 场景 | 单次调用Token | 月估算 |
|---|---|---|
| 客服问答 | 500-1000 | 低 |
| 合同审查 | 3000-8000 | 中 |
| 代码生成 | 2000-5000 | 中 |
| 长文档分析 | 10000-50000 | 高 |
如果不知道Token花在哪个场景,就没法做针对性优化。
2.3 黑洞三:浪费难发现
常见浪费模式:
- 重复调用:同样的问题,不同人问了很多遍
- 无效调用:问得模糊,模型回答也不准确,反复重试
- 过度使用:简单分类任务用了最贵的模型
这些浪费,没有精细数据根本发现不了。
三、Token归因需要做到什么?
3.1 按团队归因
研发部花了多少?运营部花了多少?销售部花了多少?
每个团队有自己的预算,需要知道花了多少、还剩多少。
3.2 按应用归因
客服机器人花了多少?代码助手花了多少?内部知识库花了多少?
哪个应用调用量最大?哪个应用性价比最高?
3.3 按用户归因
哪个用户调用量最大?是正常使用还是异常调用?
3.4 按场景归因
哪类问题消耗Token最多?是简单问答还是长文档分析?
3.5 按模型归因
同样的问题,用GPT-4花多少钱,用Claude花多少钱,用DeepSeek花多少钱?
哪个模型性价比最高?
四、没有归因,就没办法优化
很多团队在优化AI成本时,第一反应是“换更便宜的模型”。
但这不是最优解。
真正的优化路径应该是:
第一步:看清钱花在哪
先做归因,找到成本大头。可能是某个应用、某个团队、某个用户。
第二步:找浪费
分析是否有重复调用、无效调用、过度使用。
第三步:优化调用策略
- 简单任务用便宜模型
- 复杂任务用高端模型
- 缓存高频问题
第四步:换模型
前三步做完,如果成本还是高,再考虑换模型。
没有归因的优化,就像没有诊断就开药。
五、成本归因的技术实现
如果自己实现成本归因系统,需要做到:
5.1 统一计量
把所有模型的消耗折算成统一单位(如Token),才能做横向对比。
5.2 链路追踪
每一次调用都要记录:谁调的、哪个应用、哪个模型、消耗多少Token、花了多少钱。
5.3 数据聚合
按团队、应用、用户、场景、模型等多维度汇总成本数据。
5.4 可视化看板
让管理者一眼看清成本分布,支持下钻分析。
六、什么时候需要成本归因?
不需要归因的情况:
- 每月AI花费不到1000元
- 只有几个人在用
- 不关心谁花了多少
需要归因的情况:
- 每月AI花费超过5000元
- 多个团队、多个应用在用
- 需要做成本优化和预算管理
七、延伸阅读
本文讨论的Token成本归因问题,与 ZGI 的精细化成本管控方案在思路上基本一致。ZGI支持按团队、应用、模型、用户等多维度归因,让每一分Token花费都有迹可循。
写在最后
同样接入GPT-4,A公司花了B公司的3倍钱。
不是因为模型不同,不是因为用量不同,而是因为看不见。
看不见谁在用、看不见花在哪、看不见浪费在哪。
成本归因不是“锦上添花”的功能,而是规模化使用AI的必选项。
你的AI账单,你看得清吗?