如何追踪大模型中的Token使用量以优化成本在这个例子中，我们使用get_openai_callback来监控一次调用的

# 如何追踪大模型中的Token使用量以优化成本

将应用程序投入生产时，跟踪Token使用以计算成本是至关重要的。这篇指南将介绍如何从LangChain模型调用中获取相关信息，帮助开发者在实际应用中高效管理和优化资源。

## 引言

随着大语言模型(LLMs)的广泛应用，了解并管理这些模型的资源消耗变得越来越重要。尤其在使用LangChain框架时，如何精确追踪Token使用量，并根据使用量预估成本，是开发者需要关注的关键问题。本指南将带领您逐步探索如何实现这一目标。

## 主要内容

### 1. 追踪Token使用的准备工作

在开始之前，请确保对以下概念有所了解：

- 大语言模型(LLMs)
- 使用LangSmith进行Token使用追踪

LangSmith可以帮助您在LLM应用程序中追踪Token使用。更多详细信息可以参考[LangSmith快速入门指南](#)。

### 2. 使用回调函数追踪Token

对于不同的模型API，可能会有专门的回调上下文管理器用于跨多次调用追踪Token使用。若某些模型不支持这种集成，可以通过调整OpenAI的回调管理器实现自定义回调管理器。

#### 使用OpenAI示例

以下是一个简单的例子，展示如何为单次Chat模型调用追踪Token使用量：

```python
from langchain_community.callbacks import get_openai_callback
from langchain_openai import OpenAI

llm = OpenAI(model_name="gpt-3.5-turbo-instruct")

with get_openai_callback() as cb:
    result = llm.invoke("Tell me a joke")
    print(result)
    print("---")

print(f"Total Tokens: {cb.total_tokens}")
print(f"Prompt Tokens: {cb.prompt_tokens}")
print(f"Completion Tokens: {cb.completion_tokens}")
print(f"Total Cost (USD): ${cb.total_cost}")

在这个例子中，我们使用get_openai_callback来监控一次调用的Token使用情况。

3. 连续调用场景的应用

回调管理器可以用于追踪序列调用的Token使用。以下示例展示如何在多次链式调用中实现这一目标：

from langchain_community.callbacks import get_openai_callback
from langchain_core.prompts import PromptTemplate
from langchain_openai import OpenAI

llm = OpenAI(model_name="gpt-3.5-turbo-instruct")

template = PromptTemplate.from_template("Tell me a joke about {topic}")
chain = template | llm

with get_openai_callback() as cb:
    response = chain.invoke({"topic": "birds"})
    response = chain.invoke({"topic": "fish"})

print(f"Total Tokens: {cb.total_tokens}")
print(f"Prompt Tokens: {cb.prompt_tokens}")
print(f"Completion Tokens: {cb.completion_tokens}")
print(f"Total Cost (USD): ${cb.total_cost}")

4. 流处理上下文中的Token追踪

注意：当前get_openai_callback不支持在流处理上下文中计算Token，对于需要准确Token计数的流处理，请考虑以下方案：

使用支持流处理的聊天模型
实现自定义回调处理器
使用监控平台如LangSmith

常见问题和解决方案

无法追踪流处理中的Token： 由于回调处理器的限制，Legacy模型在流处理时无法更新Token计数。请使用上述替代解决方案。
特定API不支持回调： 对于不支持回调的模型API，建议参考其他开源实现以创建自定义解决方案。

总结和进一步学习资源

通过LangChain和回调管理器的结合，您可以有效追踪LLM应用程序中的Token使用情况，进而优化成本核算。推荐阅读以下资源进一步提升您的技能：

参考资料

LangChain官方文档: langchain.com/docs/
OpenAI接口文档: beta.openai.com/docs/

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---