一篇看懂:多模型场景下的成本治理指标体系

0 阅读6分钟

做 AI 应用有个很普遍的阶段:一开始只接了一个模型,成本还能凭感觉管;后来接了两三个,再后来搞了路由和降级,调用链变复杂了——突然发现账单看不懂了。

不是费用数字看不懂,而是不知道钱花在了哪里、花得合不合理、有没有优化空间。

这时候你需要的不是"少花钱",而是"看清楚钱是怎么花的"。成本治理的前提是可观测,可观测的前提是有一套清晰的指标体系。

为什么多模型场景下成本治理更难

单模型的时候,成本计算很直接:调用次数 × 平均 token 数 × 单价。但多模型场景引入了几层复杂度:

  • 不同模型定价结构不同:有的按输入输出分别计价,有的有最低消费,有的思维链 token 单独算
  • 路由分发导致流量分布不固定:今天 60% 的流量走了 A 模型,明天可能因为 A 限流变成 40% 走 A、60% 走 B
  • 降级和重试产生额外消耗:一个请求在 A 模型失败后自动切到 B 模型,实际消耗了两个模型的 token
  • 不同模型的"token 效率"不同:同样一个任务,A 模型可能用 300 token 就能答好,B 模型需要 800 token

你盯着总账单看不出这些细节。所以需要把成本拆开,用指标体系来管理。

核心指标:四层框架

我把多模型成本治理的指标分成四层,从最基础的到最有业务价值的,一层一层建起来。

第一层:调用量指标(知道"用了多少")

这是最基础的一层,但很多团队连这层都没做好。

指标定义为什么重要
总调用次数一段时间内的 API 请求总数成本的最大驱动因素之一
按模型拆分的调用次数每个模型各被调用了多少次看清流量分布
按功能模块拆分的调用次数每个业务功能各调了多少次定位成本大头
有效调用率成功返回且结果被使用的请求占比区分有效消耗和浪费

特别说一下"有效调用率"——这个指标容易被忽略,但价值很大。如果你有 20% 的调用因为超时、格式错误、结果不符合要求而被丢弃,那这 20% 就是纯浪费。治理的第一刀往往该砍在这里。

第二层:Token 消耗指标(知道"花了多少")

调用次数只是一个维度,真正决定账单的是 token 消耗。

指标定义关注点
总输入 token所有请求的输入 token 总和反映 prompt 和上下文的"肥瘦"
总输出 token所有请求的输出 token 总和反映模型回复的"啰嗦程度"
Thinking token 占比推理 token 在总输出中的比例识别推理模式是否合理
单请求平均 token 数总 token / 总调用次数快速判断是否有 token 膨胀
P95 单请求 token 数95% 的请求低于这个值识别异常偏高的请求

在多模型场景下,这些指标需要按模型分别统计。因为不同模型的 token 单价不同,100 万 token 花在 GPT-4o mini 上可能就几毛钱,花在 Claude Opus 上可能是几十美元。你需要知道"贵的模型"用了多少 token。

第三层:成本效率指标(知道"花得值不值")

前两层告诉你花了多少,这一层告诉你花得是否合理。

指标定义用途
单请求平均成本(CPR)总费用 / 有效请求数最核心的效率指标
按模型的单请求成本每个模型的 CPR发现哪个模型在"吃预算"
按功能的单请求成本每个业务功能的 CPR发现哪个功能的 AI 成本最高
降级额外成本率因降级/重试产生的额外费用占总费用的比例评估降级策略的成本代价
Token 利用率有效输出 token / 总消耗 token衡量"有多少 token 真正创造了价值"

这里面"降级额外成本率"是多模型场景特有的。当一个请求在 A 模型失败后切到 B 模型,A 的 token 消耗是白花的。如果这个比例高于 10%,说明要么主模型的稳定性有问题,要么降级策略太激进(触发阈值设得太低)。

第四层:业务价值指标(知道"这钱花得有没有产出")

前三层是技术视角,这一层是业务视角。这也是很多团队缺失的——他们能说清"AI 花了多少钱",但说不清"这些钱带来了多少价值"。

指标定义示例
AI 功能的业务贡献率AI 功能对核心业务指标的影响用了 AI 摘要后,用户停留时长提升了 15%
单次业务结果的 AI 成本产出一个有价值的业务结果需要多少 AI 费用每生成一篇合格的文章,AI 成本是 0.3 美元
AI ROIAI 带来的收入增量 / AI 总成本省了 2 个人力但 AI 月费 500 美元

这些指标不一定能精确计算,但哪怕只是粗估,也能帮你回答一个关键问题:这个 AI 功能值不值得继续投入?

怎么把这套指标跑起来

理论说完了,落地的时候你会遇到一个现实问题:数据从哪来?

如果你的系统直接调各家模型的原生 API,那你需要自己采集这些数据——在调用层加埋点,把每次请求的模型、token 数、耗时、状态码、业务标签都记下来,然后写入日志或时序数据库,再搭 dashboard。

这套东西不难,但繁琐。对于小团队来说,投入产出比不高。

如果你已经在用 poloapi.top 做多模型接入和路由,它的调用分析面板已经覆盖了上面前三层大部分指标——调用量、token 消耗、成功率、模型分布、成本明细,开箱即用。你不需要自己写采集逻辑,直接在控制台就能看到数据。

第四层的业务价值指标需要和你自己的业务系统打通,这个没有通用工具能替你做,但前三层的数据是基础——有了前三层,第四层的计算就是在上面加一层业务逻辑的事。

几条落地建议

  1. 从"看得见"开始:不要一上来就想做精细化优化。先把基础指标跑起来,看一周的数据,你会发现很多"没想到"的消耗点。
  2. 给每个功能打标签:调用的时候带上功能标签(比如"智能摘要""客服问答""内容审核"),后续按功能分析成本才有依据。
  3. 设成本预警线:比如"日成本超过 X 美元就告警""单请求成本超过 Y 就标记异常"。不需要很精确,但能防止成本悄悄失控。
  4. 每月做一次成本复盘:看看哪些指标变好了、哪些变差了、哪些模型的性价比发生了变化。成本治理不是一次性工程,是持续的过程。

没有指标体系的成本优化,就是在黑暗中摸索。先把灯打开,再决定往哪走。