AI学习——什么是TPMTPM 指的是 Tokens Per Minute（每分钟令牌数）。这是大模型 API 服务中

TPM 指的是 Tokens Per Minute（每分钟令牌数）。

这是大模型 API 服务中一种常见的速率限制（Rate Limiting）指标，用于控制客户端在一分钟内可以处理的令牌（Token）总量。

什么是 Token？
Token 是大模型处理文本的基本单位。它不等同于字数或字符，一个 Token 可以是一个词、一个标点符号，甚至是词的一部分。无论是您发送给模型的输入文本，还是模型返回的输出文本，都会被转换成 Token 进行计算。
什么是 TPM 限制？
TPM 限制就是服务商为您设定的一个配额，规定了您的应用在一分钟内最多能消耗多少 Token。这个限制通常与 RPM (Requests Per Minute，每分钟请求数) 限制同时存在，共同构成了 API 的流控策略。

当您在一分钟内消耗的 Token 总数（输入+输出）超过了服务商为您设定的 TPM 上限时，服务器就会拒绝处理后续请求，并返回 HTTP 429 (Too Many Requests) 状态码，提示您“速率超限”。

简单来说，这个报错意味着：

您的应用在短时间内发送或接收的文本量（以 Token 计算）过大，超出了允许的配额。

当遇到因 TPM 超限导致的 429 错误时，可以考虑以下几种策略：

实施客户端限流：在您的代码中加入“令牌桶”等限流算法，主动控制请求的频率和并发量，确保不会在短时间内产生流量高峰。
优化请求内容：精简输入文本，避免发送不必要的内容；同时，合理设置模型生成内容的最大长度（max_tokens），因为速率限制的计算会包含这个预估值。
实现指数退避重试：在捕获到 429 错误后，不要立即重试。可以根据响应头中的 Retry-After 字段提示，或采用指数退避策略（等待时间逐次加倍）来延迟重试，避免对服务器造成持续冲击。
申请提升配额：如果您的业务确实需要更高的吞吐量，可以联系服务提供商，申请提升 TPM 和 RPM 的配额。