[打造更智能的搜索：如何结合多种检索器的结果]上述代码将输出包含来自两个检索器的文档，其中既包含关键词匹配的文档，也包含

# 打造更智能的搜索：如何结合多种检索器的结果

在现代信息检索中，单一算法往往无法满足精准搜索的需求。通过结合多种检索器的力量，`EnsembleRetriever` 提供了一种强大的解决方案，让我们能够实现多算法的集成，进而实现更优的检索性能。这篇文章将介绍如何使用 `EnsembleRetriever` 来组合多个检索器的结果，并演示其基本用法。

## 主要内容

### 1. `EnsembleRetriever`是什么？

`EnsembleRetriever` 是一个支持合并来自多个检索器结果的工具。它通过`Reciprocal Rank Fusion`算法对多个检索器（如基于密度的检索器和稀疏检索器）进行重新排名。这样的组合通常被称为“混合搜索”，能够充分发挥各个算法的优势。

### 2. 常见组合模式

最常见的组合模式是将稀疏检索器（例如BM25）与密集检索器（例如基于嵌入相似度的检索器）结合使用。稀疏检索器擅长于基于关键词找到相关文档，而密集检索器则在基于语义相似度找到相关文档方面更有优势。

## 代码示例

让我们看看如何结合一个BM25检索器和一个基于FAISS向量存储的检索器：

```python
# 安装必要的库
%pip install --upgrade --quiet rank_bm25 > /dev/null

from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import BM25Retriever
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

# 文档列表初始化
doc_list_1 = ["I like apples", "I like oranges", "Apples and oranges are fruits"]
doc_list_2 = ["You like apples", "You like oranges"]

# 初始化BM25检索器和FAISS检索器
bm25_retriever = BM25Retriever.from_texts(doc_list_1, metadatas=[{"source": 1}] * len(doc_list_1))
bm25_retriever.k = 2

embedding = OpenAIEmbeddings()
faiss_vectorstore = FAISS.from_texts(doc_list_2, embedding, metadatas=[{"source": 2}] * len(doc_list_2))
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2})

# 初始化Ensemble检索器
ensemble_retriever = EnsembleRetriever(retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5])

# 使用API代理服务提高访问稳定性
docs = ensemble_retriever.invoke("apples")
print(docs)

上述代码将输出包含来自两个检索器的文档，其中既包含关键词匹配的文档，也包含语义匹配的文档。

常见问题和解决方案

如何在运行时配置检索器？

EnsembleRetriever允许在运行时动态配置各个检索器的参数。下面是一个更新FAISS检索器“top-k”参数的例子：

from langchain_core.runnables import ConfigurableField

faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2}).configurable_fields(
    search_kwargs=ConfigurableField(
        id="search_kwargs_faiss",
        name="Search Kwargs",
        description="The search kwargs to use",
    )
)

ensemble_retriever = EnsembleRetriever(retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5])
config = {"configurable": {"search_kwargs_faiss": {"k": 1}}}
docs = ensemble_retriever.invoke("apples", config=config)
print(docs)

通过这种方式，可以在不更改代码的情况下调整检索器的行为。

总结和进一步学习资源

本文简要介绍了如何通过EnsembleRetriever结合多个检索器的结果以提升搜索性能。要深入了解，请参阅以下资源：

Langchain文档: EnsembleRetriever
信息检索基础: Wikipedia

参考资料

Langchain 官方文档
FAISS 向量存储库文档
Reciprocal Rank Fusion 算法介绍

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---