提升检索精度的新策略：命题检索的实现与应用提升检索精度的新策略：命题检索的实现与应用引言在信息检索领域，提高检索精度

提升检索精度的新策略：命题检索的实现与应用

在信息检索领域，提高检索精度一直是重要的研究课题。近年来，Chen等提出的密集X检索（Dense X Retrieval）策略为我们提供了一种新的思路：将查询分解为多个命题，然后通过多向量索引来提高检索的准确性。本文将深入探讨这个策略的实现，并提供一个实践示例，帮助您更好地理解和应用这一方法。

命题检索的核心思想是将查询分解为多个独立的命题，每个命题代表一种独立的检索意图。这些命题可以通过向量化实现，从而提高检索的精度和效果。

在我们的示例中，我们会使用RecursiveUrlLoader来索引一篇简单的学术论文，并将所有检索信息本地存储。这需要使用chroma和bytestore在本地文件系统中进行存储。

首先，您需要设置OPENAI_API_KEY环境变量以访问gpt-3.5和OpenAI嵌入类。

export OPENAI_API_KEY=<your-api-key>

首先安装项目依赖并运行索引创建脚本：

poetry install
poetry run python propositional_retrieval/ingest.py

使用此包前，确保已安装LangChain CLI：

pip install -U langchain-cli

您可以创建一个新的LangChain项目或者将其添加到现有项目中：

langchain app new my-app --package propositional-retrieval

或添加到现有项目：

langchain app add propositional-retrieval

在server.py文件中添加以下代码：

from propositional_retrieval import chain
add_routes(app, chain, path="/propositional-retrieval")

LangSmith可以帮助我们跟踪、监控和调试LangChain应用。您可以在这里注册。

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=<your-api-key>
export LANGCHAIN_PROJECT=<your-project>

在项目目录中可以直接启动LangServe实例：

langchain serve

访问本地运行的FastAPI应用：

通过代码访问模板：

from langserve.client import RemoteRunnable
runnable = RemoteRunnable("http://localhost:8000/propositional-retrieval")

命题检索为提高检索精度提供了强有力的手段。通过合理地设置和使用此策略，您可以大大提升应用的检索性能。对于进一步学习，建议阅读Chen等人的论文《Dense X Retrieval: What Retrieval Granularity Should We Use?》，并参与相关的开源项目。

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---