引言

随着人工智能和大数据技术的飞速发展，开发者对于高效数据存储和检索的需求不断增加。Supabase作为一个开源的Firebase替代方案，基于PostgreSQL提供了强大的SQL查询能力，还能与现有的工具和框架无缝整合。本文将深入探讨如何利用Supabase和pgvector扩展来开发AI应用，并提供具体的代码示例。

主要内容

1. Supabase数据库设置

要开始使用Supabase，首先需要设置一个数据库。可以通过访问 database.new 来创建Supabase数据库。在数据库创建完成后，进入SQL编辑器运行以下脚本启用pgvector扩展并设置数据库为向量存储：

-- 启用pgvector扩展以支持嵌入向量
create extension if not exists vector;

-- 创建文档存储表
create table documents (
  id uuid primary key,
  content text, -- 对应于Document.pageContent
  metadata jsonb, -- 对应于Document.metadata
  embedding vector (1536) -- 适用于OpenAI嵌入，可以根据需要调整
);

-- 创建文档搜索函数
create function match_documents (
  query_embedding vector (1536),
  filter jsonb default '{}'
) returns table (
  id uuid,
  content text,
  metadata jsonb,
  similarity float
) language plpgsql as $$
#variable_conflict use_column
begin
  return query
  select
    id,
    content,
    metadata,
    1 - (documents.embedding <=> query_embedding) as similarity
  from documents
  where metadata @> filter
  order by documents.embedding <=> query_embedding;
end;
$$;

2. 创建Supabase向量存储

接下来，创建一个Supabase向量存储并向其添加数据。我们将以电影摘要的文档集为例进行演示。在操作前，确保安装最新版的langchain与openai支持：

%pip install --upgrade --quiet langchain langchain-openai tiktoken
%pip install --upgrade --quiet lark
%pip install --upgrade --quiet supabase

3. 环境配置与API密钥

由于Supabase和OpenAI服务需要API密钥，确保在代码中正确加载这些密钥。可以直接通过Python环境变量配置：

import getpass
import os

os.environ["SUPABASE_URL"] = getpass.getpass("Supabase URL:")
os.environ["SUPABASE_SERVICE_KEY"] = getpass.getpass("Supabase Service Key:")
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

如果使用.env文件存储密钥，可以通过dotenv加载：

%pip install --upgrade --quiet python-dotenv

from dotenv import load_dotenv
load_dotenv()

4. 文档加载与检索

初始化Supabase客户端并创建文档检索实例：

import os
from langchain_community.vectorstores import SupabaseVectorStore
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from supabase.client import Client, create_client

supabase_url = os.environ.get("SUPABASE_URL")
supabase_key = os.environ.get("SUPABASE_SERVICE_KEY")
supabase: Client = create_client(supabase_url, supabase_key)

embeddings = OpenAIEmbeddings()

docs = [
    Document(page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose", metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"}),
    ...
]
# 使用API代理服务提高访问稳定性
vectorstore = SupabaseVectorStore.from_documents(docs, embeddings, client=supabase, table_name="documents", query_name="match_documents")

5. 自查询检索器

创建自查询检索器并进行测试：

from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import OpenAI

metadata_field_info = [
    AttributeInfo(name="genre", description="The genre of the movie", type="string or list[string]"),
    AttributeInfo(name="year", description="The year the movie was released", type="integer"),
    ...
]
document_content_description = "Brief summary of a movie"
llm = OpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(llm, vectorstore, document_content_description, metadata_field_info, verbose=True)

# 测试示例
retriever.invoke("What are some movies about dinosaurs")

常见问题和解决方案

网络限制问题：某些地区可能无法直接访问API服务。开发者可以考虑使用API代理服务以提高访问稳定性。
向量维度不匹配：确保pgvector表中的向量维度与嵌入生成器一致。

总结和进一步学习资源

Supabase结合PostgreSQL为构建AI应用提供了强大的工具集，从数据存储到复杂查询都能很好地支持。对于更多的学习可以参考以下资源：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---

探索Supabase与Postgres的强大结合：构建AI应用的开源工具

引言