使用Tigris实现高效向量搜索:简化你的NoSQL数据库管理

99 阅读2分钟
# 使用Tigris实现高效向量搜索:简化你的NoSQL数据库管理

Tigris是一款开源的无服务器NoSQL数据库和搜索平台,旨在简化高性能向量搜索应用的构建。本篇文章将引导你如何使用Tigris作为你的VectorStore,帮助你专注于构建出色的应用程序,而无需担心基础设施复杂性。

## 引言

在大数据和人工智能的时代,向量搜索变得愈发重要。Tigris提供了一个无缝集成的解决方案,它消除了管理、操作和同步多个工具的基础设施复杂性。本文将带你了解如何使用Tigris作为向量存储,实现高效搜索。

## 主要内容

### 1. 准备工作

- **注册OpenAI账号**:如果你还没有OpenAI账号,可以[注册一个](https://openai.com/signup)。
- **注册Tigris账号**:访问[Tigris官网](https://tigrisdata.com/signup)注册一个免费账号,创建名为`vectordemo`的新项目。在项目的`Application Keys`中找到项目的`Uri``clientId``clientSecret`### 2. 安装依赖

通过以下命令安装所需的Python库:

```bash
%pip install --upgrade --quiet tigrisdb openapi-schema-pydantic langchain-openai langchain-community tiktoken

3. 环境变量设置

我们需要将OpenAI和Tigris的凭据加载到环境变量中:

import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
os.environ["TIGRIS_PROJECT"] = getpass.getpass("Tigris Project Name:")
os.environ["TIGRIS_CLIENT_ID"] = getpass.getpass("Tigris Client Id:")
os.environ["TIGRIS_CLIENT_SECRET"] = getpass.getpass("Tigris Client Secret:")

4. 初始化Tigris向量存储

导入示例数据并初始化向量存储:

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Tigris
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 使用API代理服务提高访问稳定性
loader = TextLoader("../../../state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()

vector_store = Tigris.from_documents(docs, embeddings, index_name="my_embeddings")

5. 实现相似度搜索

执行相似度搜索,查找与查询相关的文档:

query = "What did the president say about Ketanji Brown Jackson"
found_docs = vector_store.similarity_search(query)
print(found_docs)

或者使用分数(向量距离)进行相似度搜索:

query = "What did the president say about Ketanji Brown Jackson"
result = vector_store.similarity_search_with_score(query)
for doc, score in result:
    print(f"document={doc}, score={score}")

常见问题和解决方案

  • 网络访问问题:由于某些地区的网络限制,开发者可能需要使用API代理服务来提高访问稳定性。
  • 凭据安全性:确保你的凭据(API Key、Client Id和Client Secret)安全地存储在环境变量中或使用秘密管理工具。

总结和进一步学习资源

Tigris通过无服务器架构简化了向量存储的管理流程,让你能够专注于应用开发。有关更多信息,请参考下列资源:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---