引言
随着海量数据的不断增长,仅依赖于向量相似性查找信息可能已经不够用了。在这样的背景下,"Hybrid"搜索应运而生。Hybrid搜索结合了向量相似性搜索和其他诸如全文搜索、BM25等技术,可以提高搜索的准确性和结果相关性。在这篇文章中,我们将探讨如何在LangChain中利用Hybrid搜索,特别是通过某些支持这种功能的向量存储(如Astra DB)来实现。
主要内容
确保向量存储支持Hybrid搜索
目前,LangChain中尚没有统一的方式来执行Hybrid搜索。不同的向量存储可能有自己专属的方法来实现这项功能。一般来说,这种功能会被作为一个关键词参数在相似性搜索过程中传递。因此,查阅相关文档或源码以确认所使用的向量存储是否支持Hybrid搜索是第一步。
配置链的参数
一旦确认支持Hybrid搜索,我们应当将此参数添加为链上的一个可配置字段。这可以让我们在运行时轻松调用链并配置相关标识。有关配置的更多信息,请参阅文档配置参考。
调用链并使用可配置字段
接下来,在运行时可以使用这个可配置字段来调用链。通过例子,我们可以更清晰地看到这一过程。
代码示例
假设我们使用Astra DB的Cassandra/CQL接口来实现Hybrid搜索。首先,我们需要安装cassio库:
!pip install "cassio>=0.1.7"
以下是初始化和使用Cassandra向量存储的示例代码:
import cassio
cassio.init(
database_id="Your database ID",
token="Your application token",
keyspace="Your key space",
)
from cassio.table.cql import STANDARD_ANALYZER
from langchain_community.vectorstores import Cassandra
from langchain_openai import OpenAIEmbeddings
embeddings = OpenAIEmbeddings()
vectorstore = Cassandra(
embedding=embeddings,
table_name="test_hybrid",
body_index_options=[STANDARD_ANALYZER],
session=None,
keyspace=None,
)
vectorstore.add_texts(
[
"In 2023, I visited Paris",
"In 2022, I visited New York",
"In 2021, I visited New Orleans",
]
)
# 使用API代理服务提高访问稳定性
vectorstore.as_retriever().invoke("What city did I visit last?")
通过body_search参数可以过滤搜索:
vectorstore.as_retriever(search_kwargs={"body_search": "new"}).invoke(
"What city did I visit last?"
)
可以创建一个问题回答链:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import (
ConfigurableField,
RunnablePassthrough,
)
from langchain_openai import ChatOpenAI
template = """Answer the question based only on the following context:
{context}
Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)
model = ChatOpenAI()
retriever = vectorstore.as_retriever()
configurable_retriever = retriever.configurable_fields(
search_kwargs=ConfigurableField(
id="search_kwargs",
name="Search Kwargs",
description="The search kwargs to use",
)
)
chain = (
{"context": configurable_retriever, "question": RunnablePassthrough()}
| prompt
| model
| StrOutputParser()
)
chain.invoke("What city did I visit last?")
使用配置选项调用链:
chain.invoke(
"What city did I visit last?",
config={"configurable": {"search_kwargs": {"body_search": "new"}}},
)
常见问题和解决方案
- 网络限制:在某些地区,访问API可能会受限。您可以考虑使用API代理服务来提高访问的稳定性。
- 实现差异:不同的向量存储实现可能对Hybrid搜索的支持不同,务必查阅相关文档以了解具体实现方法。
总结和进一步学习资源
Hybrid搜索结合了向量相似性与文本搜索的优点,在提高搜索结果准确性方面表现出色。对于深度使用LangChain的用户来说,充分利用支持Hybrid搜索的向量存储是一个显著提升搜索体验的手段。进一步了解LangChain和Hybrid搜索的资源包括其官方文档和相关API参考.
参考资料
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---