「这个月 AI 花了多少钱?」——这个问题,在很多公司里没有人能准确回答。不是因为没人关心,而是因为大模型调用的成本天然是分散的:各个项目用各自的 API Key,账单加在一起是一个总数,不知道哪个部门用的、用在哪个应用上、换来了多少价值。这篇文章讲如何建立一套可用的 AI 成本治理体系。
一、为什么 AI 成本特别难管
传统 IT 成本相对好管理:服务器按月出账,授权软件按席位计费,边界清晰。大模型调用的成本有几个特殊性:
· 按量计费,弹性大: 一个写得差的 prompt 可能比写得好的多用 3 倍 token,成本差异完全不透明
· 多项目共用 Key: 研发、运营、客服都在用同一套 API,无法拆分到各业务线
· 用量行为难预测: 某个员工突然开始用 AI 批量处理数据,当月成本暴增,事后才发现
· 模型价格不一致: GPT-4o 和 GPT-4o-mini 单价差 20 倍,但用户选择模型往往没有约束
二、计量体系的设计
2.1 归因维度
要做有意义的费用报告,至少需要以下几个归因维度:
| 计量记录(每次 LLM 调用):{'timestamp': '2026-03-15T10:23:45Z','model': 'gpt-4o','input_tokens': 1240,'output_tokens': 380,'cost_usd': 0.0186,// 归因标识(由调用方传入)'org_unit': 'dept_legal', // 部门'user_id': 'u_3312', // 用户'app_id': 'contract-review', // 应用'workflow_id': 'wf_2891', // 工作流'project_id': 'proj_q1' // 项目} |
|---|
2.2 预算管控
光记录不够,需要在超出预算前主动干预:
· 软限制: 消耗达到预算 80% 时,向部门负责人发告警通知
· 硬限制: 消耗达到预算 100% 时,该归因维度的调用被拒绝,返回预定义的错误
· 动态调额: 支持临时申请额度提升,走审批流后生效
三、成本可视化报告应该包含什么
一份有用的 AI 费用报告,不只是「花了多少钱」,而是帮助管理者做判断:
· 按部门分布:哪个部门用得多,是否和其业务体量匹配
· 按应用分布:哪个应用的 token 效率低(成本高但产出少)
· 趋势对比:环比、同比变化,识别异常增长
· 模型分布:各模型的用量占比,评估是否在用「最贵但不必要」的模型
· Token 效率:平均每次调用的 input/output token 比,比值异常往往意味着 prompt 设计有问题
四、 降低成本****的工程手段
4.1 Prompt 压缩
input token 是成本的大头。很多应用的系统提示词写得很冗长,实际上可以压缩 30-50% 而不损失效果。工具:LLMLingua 是一个专门做 prompt 压缩的开源工具。
4.2 缓存重复请求
相同或高度相似的请求,可以缓存结果。典型场景:FAQ 问答,同一个问题被不同用户反复问,每次都调用 LLM 是浪费。语义缓存(用向量相似度判断是否命中缓存)比精确匹配缓存实用得多。
4.3 模型降级策略
不是所有任务都需要最强的模型。建立一套「任务复杂度评估 + 模型能力映射」的路由逻辑:简单问答用小模型,复杂推理用大模型。实测下来,合理的路由策略可以在不明显损失质量的情况下降低 40-60% 的模型调用成本。
五、从成本管理到 ROI 核算
成本管理的终点是 ROI 核算:这笔 AI 支出换来了多少价值?这比成本本身更重要,但也更难量化。几个可行的方向:
· 时间节省: 某个 AI 工作流替代了多少人工小时,乘以人工时薪换算成金额
· 错误率降低: AI 辅助审核后,合同漏洞率下降了多少,转化为潜在风险规避价值
· 处理量提升: 客服智能体上线后,单位时间处理的工单数量提升了多少
| 背景参考
| 在我们接触的企业里,没有做成本归因体系的团队,AI 月均花费往往比预期高出 2-3 倍,且不知道问题出在哪里。建立归因体系后,通常在 1-2 个月内就能识别出主要的成本浪费点。ZGI(zgi.cn)的费用管控模块提供了从计量、归因到预算预警的完整体系,支持按部门独立预算管理。 |
|---|