AI学习——什么是TPM

0 阅读2分钟

TPM 指的是 Tokens Per Minute(每分钟令牌数)。

这是大模型 API 服务中一种常见的速率限制(Rate Limiting)指标,用于控制客户端在一分钟内可以处理的令牌(Token)总量。

🔑 核心概念解析

  1. 什么是 Token?
    Token 是大模型处理文本的基本单位。它不等同于字数或字符,一个 Token 可以是一个词、一个标点符号,甚至是词的一部分。无论是您发送给模型的输入文本,还是模型返回的输出文本,都会被转换成 Token 进行计算。
  2. 什么是 TPM 限制?
    TPM 限制就是服务商为您设定的一个配额,规定了您的应用在一分钟内最多能消耗多少 Token。这个限制通常与 RPM (Requests Per Minute,每分钟请求数)  限制同时存在,共同构成了 API 的流控策略。

💥 为什么会触发 429 报错?

当您在一分钟内消耗的 Token 总数(输入+输出)超过了服务商为您设定的 TPM 上限时,服务器就会拒绝处理后续请求,并返回 HTTP 429 (Too Many Requests)  状态码,提示您“速率超限”。

简单来说,这个报错意味着:

您的应用在短时间内发送或接收的文本量(以 Token 计算)过大,超出了允许的配额。

🛠️ 如何应对 TPM 超限?

当遇到因 TPM 超限导致的 429 错误时,可以考虑以下几种策略:

  • 实施客户端限流:在您的代码中加入“令牌桶”等限流算法,主动控制请求的频率和并发量,确保不会在短时间内产生流量高峰。
  • 优化请求内容:精简输入文本,避免发送不必要的内容;同时,合理设置模型生成内容的最大长度(max_tokens),因为速率限制的计算会包含这个预估值。
  • 实现指数退避重试:在捕获到 429 错误后,不要立即重试。可以根据响应头中的 Retry-After 字段提示,或采用指数退避策略(等待时间逐次加倍)来延迟重试,避免对服务器造成持续冲击。
  • 申请提升配额:如果您的业务确实需要更高的吞吐量,可以联系服务提供商,申请提升 TPM 和 RPM 的配额。