如何使用Azure AI Search Retriever实现高效信息检索引言在当今数据驱动的世界中，高效的信息检索是

引言

在当今数据驱动的世界中，高效的信息检索是许多应用程序的核心。Azure AI Search（前称Azure Cognitive Search）为开发者提供了强大的基础设施、API和工具，可以在规模上实现矢量、关键词和混合查询。本文将介绍如何使用最新的Azure AI Search Retriever模块，该模块支持矢量索引和查询，帮助我们从非结构化查询中快速返回相关文档。

主要内容

Azure AI Search Retriever概述

Azure AI Search Retriever是一个集成模块，基于BaseRetriever类，目标是2023-11-01稳定版的REST API。这一模块替代了即将弃用的Azure Cognitive Search Retriever，建议开发者尽早过渡到这一更稳定的版本。

环境搭建

要使用Azure AI Search Retriever，您需要：

Azure AI Search服务：可以通过Azure试用版免费创建。
现有索引：利用矢量存储模块或Azure AI Search REST API创建。
API密钥：在创建搜索服务时生成，查询时使用查询API密钥，管理时使用管理员API密钥。

设置环境变量以便后续使用：

import os

os.environ["AZURE_AI_SEARCH_SERVICE_NAME"] = "<YOUR_SEARCH_SERVICE_NAME>"
os.environ["AZURE_AI_SEARCH_INDEX_NAME"] = "<YOUR_SEARCH_INDEX_NAME>"
os.environ["AZURE_AI_SEARCH_API_KEY"] = "<YOUR_API_KEY>"

安装依赖

安装所需的Python包：

%pip install --upgrade --quiet langchain-community
%pip install --upgrade --quiet langchain-openai
%pip install --upgrade --quiet azure-search-documents>=11.4
%pip install --upgrade --quiet azure-identity

实例化Azure AI Search Retriever

from langchain_community.retrievers import AzureAISearchRetriever

retriever = AzureAISearchRetriever(
    content_key="content", top_k=1, index_name="langchain-vector-demo"
)

代码示例

以下是如何使用Azure AI Search Retriever的完整示例：

import os
from langchain_community.document_loaders import TextLoader
from langchain_community.retrievers import AzureAISearchRetriever
from langchain_text_splitters import CharacterTextSplitter
from langchain_openai import AzureOpenAIEmbeddings
from langchain_community.vectorstores import AzureSearch

os.environ["AZURE_AI_SEARCH_SERVICE_NAME"] = "<YOUR_SEARCH_SERVICE_NAME>"
os.environ["AZURE_AI_SEARCH_INDEX_NAME"] = "langchain-vector-demo"
os.environ["AZURE_AI_SEARCH_API_KEY"] = "<YOUR_API_KEY>"
azure_endpoint: str = "<YOUR_AZURE_OPENAI_ENDPOINT>"
azure_openai_api_key: str = "<YOUR_AZURE_OPENAI_API_KEY>"
azure_deployment: str = "text-embedding-ada-002"

# 创建嵌入模型
embeddings = AzureOpenAIEmbeddings(
    model=azure_deployment,
    azure_endpoint=azure_endpoint,
    openai_api_key=azure_openai_api_key,
)

# 创建矢量存储
vector_store = AzureSearch(
    embedding_function=embeddings.embed_query,
    azure_search_endpoint=os.getenv("AZURE_AI_SEARCH_SERVICE_NAME"),
    azure_search_key=os.getenv("AZURE_AI_SEARCH_API_KEY"),
    index_name="langchain-vector-demo",
)

# 加载文档并分块
loader = TextLoader("state_of_the_union.txt", encoding="utf-8")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=400, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

vector_store.add_documents(documents=docs)

# 创建Retriever并检索
retriever = AzureAISearchRetriever(
    content_key="content", top_k=1, index_name="langchain-vector-demo"
)
result = retriever.invoke("does the president have a plan for covid-19?")
print(result)  # 使用API代理服务提高访问稳定性

常见问题和解决方案

访问限制：由于网络限制，某些地区开发者可能需要使用API代理服务来提高访问的稳定性。
密钥管理：确保API密钥的安全性，不要在客户端代码中暴露。
性能优化：合理设置top_k参数，避免返回过多不相关数据。

总结和进一步学习资源

Azure AI Search Retriever为我们提供了强大的信息检索能力，尤其在处理大规模数据时显得尤为重要。想要深入了解，请参考官方文档：

Azure AI Search官方文档

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---