解锁LangChain中Hybrid搜索的实力:综合向量和文本搜索技术指南

95 阅读3分钟

引言

随着海量数据的不断增长,仅依赖于向量相似性查找信息可能已经不够用了。在这样的背景下,"Hybrid"搜索应运而生。Hybrid搜索结合了向量相似性搜索和其他诸如全文搜索、BM25等技术,可以提高搜索的准确性和结果相关性。在这篇文章中,我们将探讨如何在LangChain中利用Hybrid搜索,特别是通过某些支持这种功能的向量存储(如Astra DB)来实现。

主要内容

确保向量存储支持Hybrid搜索

目前,LangChain中尚没有统一的方式来执行Hybrid搜索。不同的向量存储可能有自己专属的方法来实现这项功能。一般来说,这种功能会被作为一个关键词参数在相似性搜索过程中传递。因此,查阅相关文档或源码以确认所使用的向量存储是否支持Hybrid搜索是第一步。

配置链的参数

一旦确认支持Hybrid搜索,我们应当将此参数添加为链上的一个可配置字段。这可以让我们在运行时轻松调用链并配置相关标识。有关配置的更多信息,请参阅文档配置参考

调用链并使用可配置字段

接下来,在运行时可以使用这个可配置字段来调用链。通过例子,我们可以更清晰地看到这一过程。

代码示例

假设我们使用Astra DB的Cassandra/CQL接口来实现Hybrid搜索。首先,我们需要安装cassio库:

!pip install "cassio>=0.1.7"

以下是初始化和使用Cassandra向量存储的示例代码:

import cassio

cassio.init(
    database_id="Your database ID",
    token="Your application token",
    keyspace="Your key space",
)

from cassio.table.cql import STANDARD_ANALYZER
from langchain_community.vectorstores import Cassandra
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
vectorstore = Cassandra(
    embedding=embeddings,
    table_name="test_hybrid",
    body_index_options=[STANDARD_ANALYZER],
    session=None,
    keyspace=None,
)

vectorstore.add_texts(
    [
        "In 2023, I visited Paris",
        "In 2022, I visited New York",
        "In 2021, I visited New Orleans",
    ]
)

# 使用API代理服务提高访问稳定性
vectorstore.as_retriever().invoke("What city did I visit last?")

通过body_search参数可以过滤搜索:

vectorstore.as_retriever(search_kwargs={"body_search": "new"}).invoke(
    "What city did I visit last?"
)

可以创建一个问题回答链:

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import (
    ConfigurableField,
    RunnablePassthrough,
)
from langchain_openai import ChatOpenAI

template = """Answer the question based only on the following context:
{context}
Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)

model = ChatOpenAI()
retriever = vectorstore.as_retriever()

configurable_retriever = retriever.configurable_fields(
    search_kwargs=ConfigurableField(
        id="search_kwargs",
        name="Search Kwargs",
        description="The search kwargs to use",
    )
)

chain = (
    {"context": configurable_retriever, "question": RunnablePassthrough()}
    | prompt
    | model
    | StrOutputParser()
)

chain.invoke("What city did I visit last?")

使用配置选项调用链:

chain.invoke(
    "What city did I visit last?",
    config={"configurable": {"search_kwargs": {"body_search": "new"}}},
)

常见问题和解决方案

  • 网络限制:在某些地区,访问API可能会受限。您可以考虑使用API代理服务来提高访问的稳定性。
  • 实现差异:不同的向量存储实现可能对Hybrid搜索的支持不同,务必查阅相关文档以了解具体实现方法。

总结和进一步学习资源

Hybrid搜索结合了向量相似性与文本搜索的优点,在提高搜索结果准确性方面表现出色。对于深度使用LangChain的用户来说,充分利用支持Hybrid搜索的向量存储是一个显著提升搜索体验的手段。进一步了解LangChain和Hybrid搜索的资源包括其官方文档和相关API参考.

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---