探索Parent Document Retriever：平衡文档切割与检索的艺术引言在信息检索和自然语言处理领域，文档

引言

在信息检索和自然语言处理领域，文档的切割与检索是一个关键话题。为了提高文档的检索效率和准确性，我们往往面临着一个矛盾：是将文档切割为较小部分以保证嵌入的准确性，还是保持足够长的文本以保留上下文的完整性？ParentDocumentRetriever为我们提供了一种解决方案，能够在文档切割和检索时达到平衡。本文将详细介绍如何使用ParentDocumentRetriever，并提供相关的代码示例。

主要内容

什么是Parent Document Retriever？

ParentDocumentRetriever是一种用于文档检索的工具。它通过将文档切割成小块进行存储，然后在检索时，通过查找小块的父ID，返回较大的文档。这些父文档可以是原始文档或较大的块。

使用场景

小型块检索：当你需要检索小块内容以提高精确度时。
大型块检索：当你需要更大上下文而不想获取全部文档时。

代码示例

下面是一个使用ParentDocumentRetriever的完整代码示例，演示如何设置和使用它。

from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryStore
from langchain_chroma import Chroma
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 文档加载
loaders = [
    TextLoader("paul_graham_essay.txt"),
    TextLoader("state_of_the_union.txt"),
]
docs = []
for loader in loaders:
    docs.extend(loader.load())

# 为子文档创建切割器
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400)
# 使用向量存储来索引子块
vectorstore = Chroma(
    collection_name="full_documents", embedding_function=OpenAIEmbeddings()
    # 使用API代理服务提高访问稳定性
)
# 父文档的存储层
store = InMemoryStore()
retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
)

retriever.add_documents(docs)

# 检索文档示例
sub_docs = vectorstore.similarity_search("justice breyer")
print(sub_docs[0].page_content)

retrieved_docs = retriever.invoke("justice breyer")
print(len(retrieved_docs[0].page_content))

常见问题和解决方案

网络限制问题：在某些地区，由于网络限制，API访问可能不稳定。建议开发者使用API代理服务，以提高访问的稳定性和速度。
切块大小的选择：选择合适的块大小非常重要。块太小可能会导致上下文丢失，而块太大可能会导致嵌入失去意义。可以通过实验不同的块大小来找到最佳平衡。

总结和进一步学习资源

本文介绍了ParentDocumentRetriever及其在文档切割和检索中的应用。这种方法可以有效地平衡文档的上下文保留和检索精度。为了更好地理解和应用这些技术，建议读者查看以下资源：

参考资料

LangChain官方文档：langchain.com
OpenAI API文档：beta.openai.com/docs
InMemoryStore使用手册

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！ ---END---