企业 AI 成本为什么总是失控？ Token 计量与费用归因体系的设计本文介绍如何构建AI成本治理体系：通过多维度计量归

「这个月 AI 花了多少钱？」——这个问题，在很多公司里没有人能准确回答。不是因为没人关心，而是因为大模型调用的成本天然是分散的：各个项目用各自的 API Key，账单加在一起是一个总数，不知道哪个部门用的、用在哪个应用上、换来了多少价值。这篇文章讲如何建立一套可用的 AI 成本治理体系。

一、为什么 AI 成本特别难管

传统 IT 成本相对好管理：服务器按月出账，授权软件按席位计费，边界清晰。大模型调用的成本有几个特殊性：

· 按量计费，弹性大： 一个写得差的 prompt 可能比写得好的多用 3 倍 token，成本差异完全不透明

· 多项目共用 Key： 研发、运营、客服都在用同一套 API，无法拆分到各业务线

· 用量行为难预测： 某个员工突然开始用 AI 批量处理数据，当月成本暴增，事后才发现

· 模型价格不一致： GPT-4o 和 GPT-4o-mini 单价差 20 倍，但用户选择模型往往没有约束

二、计量体系的设计

2.1 归因维度

要做有意义的费用报告，至少需要以下几个归因维度：

计量记录（每次 LLM 调用）：{'timestamp': '2026-03-15T10:23:45Z','model': 'gpt-4o','input_tokens': 1240,'output_tokens': 380,'cost_usd': 0.0186,// 归因标识（由调用方传入）'org_unit': 'dept_legal', // 部门'user_id': 'u_3312', // 用户'app_id': 'contract-review', // 应用'workflow_id': 'wf_2891', // 工作流'project_id': 'proj_q1' // 项目}

2.2 预算管控

光记录不够，需要在超出预算前主动干预：

· 软限制： 消耗达到预算 80% 时，向部门负责人发告警通知

· 硬限制： 消耗达到预算 100% 时，该归因维度的调用被拒绝，返回预定义的错误

· 动态调额： 支持临时申请额度提升，走审批流后生效

三、成本可视化报告应该包含什么

一份有用的 AI 费用报告，不只是「花了多少钱」，而是帮助管理者做判断：

· 按部门分布：哪个部门用得多，是否和其业务体量匹配

· 按应用分布：哪个应用的 token 效率低（成本高但产出少）

· 趋势对比：环比、同比变化，识别异常增长

· 模型分布：各模型的用量占比，评估是否在用「最贵但不必要」的模型

· Token 效率：平均每次调用的 input/output token 比，比值异常往往意味着 prompt 设计有问题

四、 降低成本****的工程手段

4.1 Prompt 压缩

input token 是成本的大头。很多应用的系统提示词写得很冗长，实际上可以压缩 30-50% 而不损失效果。工具：LLMLingua 是一个专门做 prompt 压缩的开源工具。

4.2 缓存重复请求

相同或高度相似的请求，可以缓存结果。典型场景：FAQ 问答，同一个问题被不同用户反复问，每次都调用 LLM 是浪费。语义缓存（用向量相似度判断是否命中缓存）比精确匹配缓存实用得多。

4.3 模型降级策略

不是所有任务都需要最强的模型。建立一套「任务复杂度评估 + 模型能力映射」的路由逻辑：简单问答用小模型，复杂推理用大模型。实测下来，合理的路由策略可以在不明显损失质量的情况下降低 40-60% 的模型调用成本。

五、从成本管理到 ROI 核算

成本管理的终点是 ROI 核算：这笔 AI 支出换来了多少价值？这比成本本身更重要，但也更难量化。几个可行的方向：

· 时间节省： 某个 AI 工作流替代了多少人工小时，乘以人工时薪换算成金额

· 错误率降低： AI 辅助审核后，合同漏洞率下降了多少，转化为潜在风险规避价值

· 处理量提升： 客服智能体上线后，单位时间处理的工单数量提升了多少

| 背景参考

在我们接触的企业里，没有做成本归因体系的团队，AI 月均花费往往比预期高出 2-3 倍，且不知道问题出在哪里。建立归因体系后，通常在 1-2 个月内就能识别出主要的成本浪费点。ZGI（zgi.cn）的费用管控模块提供了从计量、归因到预算预警的完整体系，支持按部门独立预算管理。