引言
随着人工智能和大数据技术的飞速发展,开发者对于高效数据存储和检索的需求不断增加。Supabase作为一个开源的Firebase替代方案,基于PostgreSQL提供了强大的SQL查询能力,还能与现有的工具和框架无缝整合。本文将深入探讨如何利用Supabase和pgvector扩展来开发AI应用,并提供具体的代码示例。
主要内容
1. Supabase数据库设置
要开始使用Supabase,首先需要设置一个数据库。可以通过访问 database.new 来创建Supabase数据库。在数据库创建完成后,进入SQL编辑器运行以下脚本启用pgvector扩展并设置数据库为向量存储:
-- 启用pgvector扩展以支持嵌入向量
create extension if not exists vector;
-- 创建文档存储表
create table documents (
id uuid primary key,
content text, -- 对应于Document.pageContent
metadata jsonb, -- 对应于Document.metadata
embedding vector (1536) -- 适用于OpenAI嵌入,可以根据需要调整
);
-- 创建文档搜索函数
create function match_documents (
query_embedding vector (1536),
filter jsonb default '{}'
) returns table (
id uuid,
content text,
metadata jsonb,
similarity float
) language plpgsql as $$
#variable_conflict use_column
begin
return query
select
id,
content,
metadata,
1 - (documents.embedding <=> query_embedding) as similarity
from documents
where metadata @> filter
order by documents.embedding <=> query_embedding;
end;
$$;
2. 创建Supabase向量存储
接下来,创建一个Supabase向量存储并向其添加数据。我们将以电影摘要的文档集为例进行演示。在操作前,确保安装最新版的langchain与openai支持:
%pip install --upgrade --quiet langchain langchain-openai tiktoken
%pip install --upgrade --quiet lark
%pip install --upgrade --quiet supabase
3. 环境配置与API密钥
由于Supabase和OpenAI服务需要API密钥,确保在代码中正确加载这些密钥。可以直接通过Python环境变量配置:
import getpass
import os
os.environ["SUPABASE_URL"] = getpass.getpass("Supabase URL:")
os.environ["SUPABASE_SERVICE_KEY"] = getpass.getpass("Supabase Service Key:")
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
如果使用.env文件存储密钥,可以通过dotenv加载:
%pip install --upgrade --quiet python-dotenv
from dotenv import load_dotenv
load_dotenv()
4. 文档加载与检索
初始化Supabase客户端并创建文档检索实例:
import os
from langchain_community.vectorstores import SupabaseVectorStore
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from supabase.client import Client, create_client
supabase_url = os.environ.get("SUPABASE_URL")
supabase_key = os.environ.get("SUPABASE_SERVICE_KEY")
supabase: Client = create_client(supabase_url, supabase_key)
embeddings = OpenAIEmbeddings()
docs = [
Document(page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose", metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"}),
...
]
# 使用API代理服务提高访问稳定性
vectorstore = SupabaseVectorStore.from_documents(docs, embeddings, client=supabase, table_name="documents", query_name="match_documents")
5. 自查询检索器
创建自查询检索器并进行测试:
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import OpenAI
metadata_field_info = [
AttributeInfo(name="genre", description="The genre of the movie", type="string or list[string]"),
AttributeInfo(name="year", description="The year the movie was released", type="integer"),
...
]
document_content_description = "Brief summary of a movie"
llm = OpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(llm, vectorstore, document_content_description, metadata_field_info, verbose=True)
# 测试示例
retriever.invoke("What are some movies about dinosaurs")
常见问题和解决方案
- 网络限制问题:某些地区可能无法直接访问API服务。开发者可以考虑使用API代理服务以提高访问稳定性。
- 向量维度不匹配:确保pgvector表中的向量维度与嵌入生成器一致。
总结和进一步学习资源
Supabase结合PostgreSQL为构建AI应用提供了强大的工具集,从数据存储到复杂查询都能很好地支持。对于更多的学习可以参考以下资源:
参考资料
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
---END---