从0到1，LangChain+RAG全链路实战AI知识库从 0 到 1：LangChain+RAG 全链路实战 AI 知

从 0 到 1：LangChain+RAG 全链路实战 AI 知识库，解锁智能问答新体验

在大模型时代，“让 AI 精准回答特定领域问题” 已成为企业与开发者的核心需求 —— 无论是企业内部的 “产品文档智能问答”，还是垂直领域的 “医疗知识查询”“法律条文解读”，都需要 AI 能基于指定知识库内容生成准确、可控的回答，而非依赖大模型的通用知识（避免 “一本正经地胡说八道”）。

而LangChain+RAG（检索增强生成） 正是实现这一需求的主流技术方案：RAG 通过 “检索知识库中的相关信息” 为大模型提供 “上下文支撑”，LangChain 则作为 “胶水框架”，串联起 “数据加载、处理、检索、生成” 全链路。本文将以 “搭建企业产品文档 AI 知识库” 为例，从 0 到 1 拆解 LangChain+RAG 的实战流程，带您亲手实现 “上传文档→智能问答” 的完整功能，掌握 AI 知识库的核心技术逻辑。

一、基础认知：为什么选择 LangChain+RAG？

在动手实战前，需先明确 RAG 的核心价值与 LangChain 的定位，避免技术选型盲目跟风。

1. RAG：解决大模型 “知识过时、领域局限、回答不可控” 的痛点

大模型（如 GPT-3.5、LLaMA）虽具备强大的生成能力，但在实际应用中存在三大明显局限：

知识过时：大模型的训练数据有 “截止时间”（如 GPT-3.5 截止到 2021 年 9 月），无法回答最新信息（如 2024 年新发布的产品功能）；

领域局限：通用大模型对垂直领域知识（如企业内部流程、行业专属术语）掌握不足，难以精准回答专业问题；

回答不可控：大模型可能生成 “幻觉内容”（未基于事实的虚假回答），且无法追溯回答来源，不适用于对准确性要求高的场景（如医疗、法律）。

而 RAG 的核心逻辑是 “检索先行，生成在后”，完美解决上述痛点：

检索：用户提问时，先从 “自定义知识库”（如企业文档、行业手册）中检索与问题相关的片段；

生成：将 “检索到的相关片段 + 用户问题” 一起传递给大模型，让大模型基于 “指定上下文” 生成回答，确保回答 “有依据、可追溯、无幻觉”。

例如：当用户问 “XX 产品 2024 年新增了哪些功能？”，RAG 会先从 “2024 年 XX 产品更新文档” 中检索相关内容，再让大模型基于这些内容生成回答，避免大模型因 “知识过时” 给出错误信息。

2. LangChain：降低 RAG 全链路开发成本的 “胶水框架”

搭建 RAG 系统需要串联 “数据加载（读取文档）→数据处理（拆分片段、生成向量）→检索（匹配相关片段）→生成（调用大模型）” 多个环节，若手动开发每个环节，不仅代码量大，还需处理 “不同工具的兼容问题”（如不同文档格式的解析、不同向量数据库的连接）。

而 LangChain 作为专为大模型应用开发的框架，提供了 “模块化、可组合” 的组件，能轻松串联 RAG 全链路：

文档加载组件：支持直接读取 PDF、Word、Markdown、Excel 等 100 + 格式的文档，无需手动开发解析逻辑；

文本处理组件：提供 “文本拆分器”（如按字数、按段落拆分）、“文本转换器”（如提取关键词、生成摘要），快速处理原始文档；

向量存储组件：封装了与主流向量数据库（如 Chroma、Pinecone、Milvus）的连接逻辑，一行代码即可实现 “文本向量存储与检索”；

大模型调用组件：支持调用 OpenAI、Anthropic、本地化大模型（如 LLaMA、Qwen），无需关注不同大模型的 API 差异；

链条（Chain）组件：预置了 “RetrievalQA Chain” 等 RAG 专用链条，可直接串联 “检索→生成” 流程，无需手动拼接各环节。

简单来说：LangChain 让开发者无需 “重复造轮子”，只需专注于 “知识库内容设计” 与 “业务逻辑优化”，大幅降低 RAG 系统的开发门槛与周期。

二、实战准备：技术选型与环境搭建

在正式开发前，需完成 “技术栈选型” 与 “开发环境搭建”，本实战以 “轻量、易上手” 为原则，选择以下技术栈：

1. 核心技术栈选型

环节	技术选型	选型理由
文档加载	LangChain Document Loaders	支持 PDF/Word/Markdown 等多格式，开箱即用
文本向量生成	OpenAI Embeddings（或本地化模型）	生成高质量文本向量，适合新手快速上手
向量数据库	Chroma	轻量级本地向量数据库，无需部署，适合测试
大模型	OpenAI GPT-3.5 Turbo	响应速度快、成本低，适合中小型知识库场景
开发语言与框架	Python + FastAPI	Python 生态丰富，FastAPI 便于搭建 API 服务

2. 开发环境搭建（3 步完成）

步骤 1：安装依赖包

打开终端，执行以下命令安装所需 Python 包：

# 安装LangChain核心包
pip install langchain
# 安装文档加载依赖（支持PDF、Word等格式）
pip install pypdf python-docx python-markdown
# 安装向量数据库Chroma
pip install chromadb
# 安装OpenAI依赖（用于调用Embeddings与大模型）
pip install openai
# 安装FastAPI（用于搭建API服务，可选）
pip install fastapi uvicorn

步骤 2：配置 API 密钥（若使用 OpenAI 服务）

若选择调用 OpenAI 的 Embeddings 与 GPT-3.5 模型，需先在OpenAI 官网申请 API 密钥，然后在代码中配置：

import os
# 设置OpenAI API密钥
os.environ["OPENAI_API_KEY"] = "your-openai-api-key"

步骤 3：准备知识库文档

创建 “knowledge_base” 文件夹，放入需要作为知识库的文档（如企业产品 PDF 手册、Markdown 格式的帮助文档），本实战以 “产品更新文档.pdf” 为例。

三、从 0 到 1 实战：LangChain+RAG 搭建 AI 知识库

本实战分为 “3 大核心阶段”：知识库构建（数据加载→处理→存储）→RAG 问答链实现（检索→生成）→API 服务部署（对外提供问答接口） ，每个阶段都提供完整代码与详细解析。

阶段 1：知识库构建 —— 将文档转化为 “可检索的向量数据”

知识库构建是 RAG 系统的基础，核心是 “将原始文档拆分为小片段，生成向量后存储到向量数据库”，以便后续快速检索。

步骤 1：加载文档（读取 PDF/Word 等文件）

使用 LangChain 的PyPDFLoader加载 PDF 文档（若为其他格式，可替换为Docx2txtLoader、UnstructuredMarkdownLoader等）：

from langchain.document_loaders import PyPDFLoader
# 1. 加载PDF文档（替换为你的文档路径）
loader = PyPDFLoader("knowledge_base/产品更新文档.pdf")
# 2. 读取文档内容，返回Document对象列表（每个Document包含“页面内容”与“元数据”）
documents = loader.load()
# 查看加载结果（可选）
print(f"加载的文档页数：{len(documents)}")
print(f"第一页内容预览：{documents[0].page_content[:200]}")
print(f"第一页元数据：{documents[0].metadata}")  # 包含页码、文档路径等信息

关键说明：Document对象是 LangChain 中表示 “文档片段” 的标准格式，包含page_content（文本内容）与metadata（元数据，如页码、文档名称），后续所有处理都基于Document对象。

步骤 2：处理文档（拆分文本片段）

原始文档（如 PDF 的一页）通常包含大量文本，若直接生成向量，会导致 “检索精度低”（如用户问题只与页面中的某一小段相关，却检索出整个页面）。因此需将文档拆分为 “更小的片段”：

from langchain.text_splitter import RecursiveCharacterTextSplitter
# 1. 创建文本拆分器（按字符递归拆分，避免拆分句子）
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,          # 每个片段的最大字数
    chunk_overlap=50,        # 片段间的重叠字数（确保上下文连贯）
    length_function=len,     # 字数统计函数
    separators=["\n\n", "\n", ". ", " ", ""]  # 拆分分隔符优先级
)
# 2. 拆分文档（将加载的Document列表拆分为更小的Document片段）
split_documents = text_splitter.split_documents(documents)
# 查看拆分结果（可选）
print(f"拆分后的片段数量：{len(split_documents)}")
print(f"第一个片段内容：{split_documents[0].page_content}")
print(f"第一个片段元数据：{split_documents[0].metadata}")  # 保留原文档的元数据

关键参数解析：

- chunk_size：根据大模型的 “上下文窗口大小” 设置（如 GPT-3.5 支持 4096 tokens，500 字约等于 1300 tokens，预留足够空间给用户问题）；

- chunk_overlap：设置重叠字数（如 50 字），避免因 “拆分位置不当” 导致上下文断裂（如某句话被拆成两个片段）。

步骤 3：生成向量并存储到数据库

文本片段无法直接用于 “相似性检索”，需先将其转化为 “向量”（用数字表示文本语义），再存储到向量数据库中。本实战使用 “OpenAI Embeddings” 生成向量，“Chroma” 存储向量：

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
# 1. 初始化Embeddings模型（用于将文本转化为向量）
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")  # 轻量型模型，成本低
# 2. 初始化Chroma向量数据库，将拆分后的文档片段生成向量并存储
# persist_directory：向量数据存储路径（本地文件夹）
vector_store = Chroma.from_documents(
    documents=split_documents,
    embedding=embeddings,
    persist_directory="./chroma_db"  # 数据存储在当前目录的chroma_db文件夹
)
# 3. 持久化数据（确保数据保存到本地，下次运行可直接加载）
vector_store.persist()
# 查看向量数据库信息（可选）
print(f"向量数据库中存储的片段数量：{vector_store._collection.count()}")

本地化替代方案：若无法访问 OpenAI 服务，可使用 “本地化 Embeddings 模型”（如all-MiniLM-L6-v2），需先安装sentence-transformers包：

pip install sentence-transformers

然后替换 Embeddings 初始化代码：

from langchain.embeddings import HuggingFaceEmbeddings
# 使用本地化Embeddings模型
embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

至此，“知识库构建” 阶段完成 —— 我们已将 “产品更新文档.pdf” 拆分为小片段、生成向量并存储到 Chroma 数据库中，接下来即可基于该知识库实现智能问答。

四、核心功能实现：RAG 智能问答与 API 部署

完成知识库构建后，需实现 “用户提问→检索相关片段→生成回答” 的核心逻辑，并可将其封装为 API 服务，供前端（如 Web 页面、APP）调用。

1. 实现基础 RAG 问答功能（5 行代码搞定）

LangChain 预置了 “RetrievalQA Chain”，可直接串联 “检索→生成” 流程，无需手动拼接各环节：

from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
# 1. 初始化大模型（此处使用OpenAI GPT-3.5 Turbo）
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.2)
# temperature：生成回答的随机性（0-1，0表示回答更精准、无冗余）
# 2. 从本地加载已构建的向量数据库（避免重复构建）
vector_store = Chroma(
    persist_directory="./chroma_db",
    embedding_function=embeddings  # 需与构建时使用的Embeddings一致
)
# 3. 创建检索器（设置检索时返回的相关片段数量）
retriever = vector_store.as_retriever(search_kwargs={"k": 3})
# search_kwargs={"k":3}：检索时返回与问题最相关的3个片段
# 4. 创建RAG问答链（串联检索器与大模型）
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # 将所有检索到的片段“塞进”上下文传给大模型
    retriever=retriever,
    return_source_documents=True  # 让回答包含“检索到的相关片段”（便于追溯来源）
)
# 5. 测试问答功能
user_question = "XX产品2024年Q1新增了哪些功能？"
result = qa_chain({"query": user_question})
# 输出结果
print(f"用户问题：{user_question}")
print(f"\nAI回答：{result['result']}")
print(f"\n回答依据（检索到的片段）：")
for i, doc in enumerate(result["source_documents"], 1):
    print(f"\n{i}. 来源：{doc.metadata['source']}（第{doc.metadata['page']}页）")
    print(f"内容：{doc.page_content}")

关键参数解析：

- chain_type：RAG 链的类型，除 “stuff” 外，还有 “map_reduce”（先分别总结每个片段，再合并总结）、“refine”（基于前一个片段的总结优化下一个片段的总结），“stuff” 适合片段数量少、长度短的场景，效率最高；

- return_source_documents=True：开启后，回答会包含 “检索到的相关片段”，用户可查看 “回答依据”，增强可信度。

运行上述代码后，你将看到：AI 会基于 “产品更新文档.pdf” 中的内容生成回答，并列出回答对应的文档来源与页码，实现 “有依据、可追溯” 的智能问答。

2. 优化问答体验：添加 “对话记忆” 功能

基础 RAG 问答仅支持 “单轮提问”（无法理解上下文，如用户先问 “XX 产品 2024 年 Q1 更新了什么？”，再问 “这些功能如何使用？”，AI 无法关联 “这些功能” 指的是 Q1 更新的功能）。需添加 “对话记忆” 功能，实现多轮对话：

from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
# 1. 初始化对话记忆（存储历史对话内容）
memory = ConversationBufferMemory(
    memory_key="chat_history",  # 记忆在链中的键名
    return_messages=True,       # 返回Message对象，便于大模型理解
    output_key="answer"         # 与问答链的输出键匹配
)
# 2. 创建带对话记忆的RAG链（ConversationalRetrievalChain）
conv_qa_chain = ConversationalRetrievalChain.from_llm(
    llm=llm,
    retriever=retriever,
    memory=memory,
    return_source_documents=True,
    chain_type="stuff",
    output_key="answer"
)
# 3. 测试多轮对话
# 第一轮提问
question1 = "XX产品2024年Q1新增了哪些功能？"
result1 = conv_qa_chain({"question": question1})
print(f"用户：{question1}")
print(f"AI：{result1['answer']}")
# 第二轮提问（关联第一轮内容）
question2 = "这些功能如何开启？"
result2 = conv_qa_chain({"question": question2})
print(f"\n用户：{question2}")
print(f"AI：{result2['answer']}")
print(f"\n回答依据：")
for i, doc in enumerate(result2["source_documents"], 1):
    print(f"{i}. 来源：{doc.metadata['source']}（第{doc.metadata['page']}页）")
    print(f"内容：{doc.page_content}")

核心原理：ConversationBufferMemory会存储