[深入探索PGVecto.rs：使用Postgres向量数据库进行高级文本搜索]启动数据库使用官方的Docker镜像：

# 深入探索PGVecto.rs：使用Postgres向量数据库进行高级文本搜索

## 引言

在现代应用程序中，处理大量文本数据并从中提取有意义的信息已成为一种必需技术。PGVecto.rs作为Postgres中的一个向量存储解决方案，帮助开发者在数据库中实现高效的文本相似性搜索。这篇文章旨在介绍如何使用PGVecto.rs完成基本的文本处理任务，并探索其在相似性搜索中的应用。

## 主要内容

### 安装和环境准备

首先，确保安装了必要的库和工具：

```bash
%pip install "pgvecto_rs[sdk]" langchain-community

启动数据库使用官方的Docker镜像：

! docker run --name pgvecto-rs-demo -e POSTGRES_PASSWORD=mysecretpassword -p 5432:5432 -d tensorchord/pgvecto-rs:latest

配置数据库连接

借助环境变量配置数据库连接：

import os

PORT = os.getenv("DB_PORT", 5432)
HOST = os.getenv("DB_HOST", "localhost")
USER = os.getenv("DB_USER", "postgres")
PASS = os.getenv("DB_PASS", "mysecretpassword")
DB_NAME = os.getenv("DB_NAME", "postgres")

URL = "postgresql+psycopg://{username}:{password}@{host}:{port}/{db_name}".format(
    port=PORT,
    host=HOST,
    username=USER,
    password=PASS,
    db_name=DB_NAME,
)

创建向量存储

从文本文档创建向量存储：

from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings.fake import FakeEmbeddings
from langchain_community.vectorstores.pgvecto_rs import PGVecto_rs
from langchain_text_splitters import CharacterTextSplitter

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = FakeEmbeddings(size=3)

db1 = PGVecto_rs.from_documents(
    documents=docs,
    embedding=embeddings,
    db_url=URL, # 使用API代理服务提高访问稳定性
    collection_name="state_of_the_union",
)

进行相似性搜索

通过问询数据库进行文本相似性搜索：

query = "What did the president say about Ketanji Brown Jackson"
docs: List[Document] = db1.similarity_search(query, k=4)
for doc in docs:
    print(doc.page_content)
    print("======================")

常见问题和解决方案

权限问题：确保用户具有创建表的权限，否则会导致数据库操作失败。
连接失败：若在某些地区由于网络限制导致API连接失败，考虑使用API代理服务稳定访问。

总结和进一步学习资源

PGVecto.rs为开发者提供了一个强大的文本检索工具，结合Postgres的稳定性，实现了高效的文本相似性搜索。为了深入了解，请参考以下资源：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---