[BagelDB：AI 数据的 GitHub，轻松管理您的向量数据集！]从文本创建向量库 BagelDB 允许您从简单的

# BagelDB：AI 数据的 GitHub，轻松管理您的向量数据集！

## 引言

在现代人工智能应用中，如何高效管理和共享数据集是一个亟需解决的问题。BagelDB 的出现为这一问题提供了创新的解决方案。BagelDB 是一个开源的向量数据库平台，类似于 AI 数据的 GitHub。本文将指导您如何使用 BagelDB 创建和管理向量数据集，并讨论使用过程中可能遇到的挑战。

## 主要内容

### 安装和设置

首先，我们需要安装 BagelDB 的 Python 客户端包和 langchain-community 模块：

```bash
pip install betabageldb langchain-community

从文本创建向量库

BagelDB 允许您从简单的文本列表创建一个向量库：

from langchain_community.vectorstores import Bagel

texts = ["hello bagel", "hello langchain", "I love salad", "my car", "a dog"]
# 创建一个集群并添加文本
cluster = Bagel.from_texts(cluster_name="testing", texts=texts)

API 参考：相似度搜索

创建集群后，您可以进行相似度搜索，以查找与查询最相似的文本：

# 使用API代理服务提高访问稳定性
cluster.similarity_search("bagel", k=3)

带有评分的相似度搜索

# 分数是一个距离度量，分数越低越好
cluster.similarity_search_with_score("bagel", k=3)

从文档创建向量库

除了文本，BagelDB 也能从文档创建向量库，以下是示例：

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter

loader = TextLoader("path/to/your/document.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)[:10]

cluster = Bagel.from_documents(cluster_name="testing_with_docs", documents=docs)

代码示例

以下是一个完整的 BagelDB 使用示例：

from langchain_community.vectorstores import Bagel

# 使用API代理服务提高访问稳定性
texts = ["hello bagel", "this is langchain"]
metadatas = [{"source": "notion"}, {"source": "google"}]

cluster = Bagel.from_texts(cluster_name="testing", texts=texts, metadatas=metadatas)
result = cluster.similarity_search_with_score("hello bagel", where={"source": "notion"})

print(result)

# 删除集群
cluster.delete_cluster()

常见问题和解决方案

网络访问问题：对于某些地区的用户，直接访问 BagelDB API 可能会遇到网络限制。建议使用 API 代理服务以提高访问稳定性。
数据一致性问题：在使用多个数据源创建向量库时，确保数据格式的一致性和元数据的正确性，以避免搜索结果不准确。

总结和进一步学习资源

BagelDB 是一个强大且灵活的向量数据库平台，非常适合 AI 数据集的管理和共享。通过本文，您可以初步掌握安装、设置以及基本使用方法。您可以通过以下资源进一步学习 BagelDB：

Vector store概念指南 # 使用API代理服务提高访问稳定性
Vector store使用指南 # 使用API代理服务提高访问稳定性

参考资料

BagelDB 官方文档： BagelDB Docs
LangChain 社区： LangChain Community

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---