RAG 进阶实战：Agentic RAG、GraphRAG、Multi-Modal RAG 前言：经典 RAG 的天花板

上一篇讲了经典 RAG 的完整流程，这一篇带你冲进阶。三种架构都配可运行代码，全程可复制。看完记得点赞收藏，你的支持是我更新的最大动力 🌟

前言：经典 RAG 的天花板

跑通了基础 RAG 的朋友，很快会遇到下面三种翻车场景：

场景一：简单问题也硬要检索

用户问"你好""1+1 等于几"——经典 RAG 不管三七二十一都要走一遍检索流程，浪费 token 不说，检索回来的无关内容还会干扰答案。

场景二：关系型问题答得一塌糊涂

比如"列出所有和张三在 2023 年合作过项目的人"——向量检索擅长找"相似内容"，但对"实体之间的关系"束手无策。

场景三：图表直接被无视

上传一份公司年报 PDF，里面 80% 的关键信息在财务表格和业务结构图里——经典 RAG 提取文本时这些内容要么丢失、要么变成乱码。

这三个痛点，分别对应三个进阶方向：

痛点	解法
检索策略不灵活	Agentic RAG：让 LLM 自己决策
处理不了关系型查询	GraphRAG：用知识图谱做检索
多模态内容抓瞎	Multi-Modal RAG：支持图表检索

这篇文章会把这三个方向一次讲透，每个方向都配可运行的完整代码。准备好了吗？我们开始。

一、Agentic RAG：让 LLM 学会"思考"（重点章节）

Agentic RAG 是目前最火、最值得优先落地的方向。它解决的核心问题是——把"固定流程"变成"动态决策" 。

1.1 经典 RAG vs Agentic RAG

经典 RAG 的流程是死的：

提问 → 检索 → 拼 Prompt → 生成 → 返回

不管问题多简单多复杂，都走这一条路。

Agentic RAG 把 LLM 当成一个会思考的 Agent，它会在每一步自己做决策：

提问 → 【要不要检索？】
         ├─ 不要 → 直接回答
         └─ 要   → 检索 → 【结果够用吗？】
                           ├─ 够用 → 生成答案 → 【答案靠谱吗？】
                           │                    ├─ 靠谱 → 返回
                           │                    └─ 不靠谱 → 重试
                           └─ 不够 → 改写 query → 重新检索

1.2 三种主流实现模式

① Self-RAG（带反思的 RAG）

核心特点：检索完要"自评"，不满意就重来。流程里有两个打分环节：

召回的文档和问题相关吗？
生成的答案真的基于文档吗（有没有幻觉）？

② Adaptive RAG（自适应路由）

核心特点：根据问题复杂度走不同路径。

简单问题（闲聊、常识）→ 直接回答
中等问题 → 单次检索
复杂问题（多跳推理）→ 多次检索 + 推理

③ ReAct-based RAG

核心特点：Thought-Action-Observation 循环。LLM 每一步输出"我现在在想什么""我要做什么（检索/回答）""我观察到了什么"，直到解决问题。

下面我们用 LangGraph 实现一个结合了 Self-RAG 思想的 Agentic RAG。LangGraph 是 LangChain 团队推出的、专门做这类带状态的 Agent 工作流的库。

1.3 实战：用 LangGraph 搭建 Agentic RAG

先装依赖：

pip install langgraph langchain langchain-openai langchain-community chromadb

Step 1：定义图的状态

LangGraph 的核心是一个带状态的有向图，每个节点读写状态：

from typing import List, TypedDict
from langchain_core.documents import Document

class AgentState(TypedDict):
    question: str              # 原始问题
    rewritten_question: str    # 改写后的问题
    documents: List[Document]  # 检索到的文档
    generation: str            # 生成的答案
    retry_count: int           # 重试次数（防止无限循环）

Step 2：准备 Retriever（沿用上一篇的套路）

from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_community.vectorstores import Chroma
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 加载 + 切分 + 向量化
loader = PyPDFLoader("./docs/company_handbook.pdf")
docs = loader.load()
splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, chunk_overlap=50,
    separators=["\n\n", "\n", "。", "！", "？", "，", " ", ""],
)
chunks = splitter.split_documents(docs)

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Chroma.from_documents(chunks, embeddings, persist_directory="./chroma_db")
retriever = vectorstore.as_retriever(search_kwargs={"k": 4})

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

Step 3：定义各个节点（这是核心）

每个节点就是一个普通函数，输入状态，输出更新后的状态。

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser, JsonOutputParser

# ========== 节点 1：检索 ==========
def retrieve(state: AgentState) -> AgentState:
    print("---🔍 检索中---")
    question = state.get("rewritten_question") or state["question"]
    documents = retriever.invoke(question)
    return {**state, "documents": documents}


# ========== 节点 2：给检索结果打分（关键）==========
grade_prompt = ChatPromptTemplate.from_template("""
你是一个文档相关性评分员。判断下面的文档是否与用户问题相关。
只需要判断是否包含**有助于回答问题**的信息，不需要太严格。

文档：{document}
问题：{question}

请返回 JSON 格式：{{"score": "yes" 或 "no"}}
""")
grade_chain = grade_prompt | llm | JsonOutputParser()

def grade_documents(state: AgentState) -> AgentState:
    print("---评估文档相关性---")
    question = state["question"]
    documents = state["documents"]
    
    filtered_docs = []
    for doc in documents:
        result = grade_chain.invoke({
            "question": question,
            "document": doc.page_content,
        })
        if result["score"] == "yes":
            print(f"  ✅ 相关: {doc.page_content[:50]}...")
            filtered_docs.append(doc)
        else:
            print(f"  ❌ 不相关，丢弃")
    
    return {**state, "documents": filtered_docs}


# ========== 节点 3：改写问题（检索失败时触发）==========
rewrite_prompt = ChatPromptTemplate.from_template("""
用户的原问题检索不到合适的内容。请站在更专业的角度，把问题改写得更精确、更书面化。
只返回改写后的问题，不要解释。

原问题：{question}
""")
rewrite_chain = rewrite_prompt | llm | StrOutputParser()

def rewrite_question(state: AgentState) -> AgentState:
    print("---改写问题---")
    rewritten = rewrite_chain.invoke({"question": state["question"]})
    print(f"  原问题：{state['question']}")
    print(f"  新问题：{rewritten}")
    return {
        **state,
        "rewritten_question": rewritten,
        "retry_count": state.get("retry_count", 0) + 1,
    }


# ========== 节点 4：生成答案 ==========
generate_prompt = ChatPromptTemplate.from_template("""
基于下面的上下文回答问题。如果上下文不足以回答，请说"我不知道"。

上下文：
{context}

问题：{question}

答案：
""")
generate_chain = generate_prompt | llm | StrOutputParser()

def generate(state: AgentState) -> AgentState:
    print("---生成答案---")
    context = "\n\n".join(doc.page_content for doc in state["documents"])
    answer = generate_chain.invoke({
        "context": context,
        "question": state["question"],
    })
    return {**state, "generation": answer}


# ========== 节点 5：答案幻觉检查 ==========
hallucination_prompt = ChatPromptTemplate.from_template("""
判断下面的"答案"是否真的基于"上下文"生成，有没有编造。

上下文：{context}
答案：{generation}

返回 JSON：{{"score": "yes" 表示答案靠谱基于上下文，"no" 表示有幻觉}}
""")
hallucination_chain = hallucination_prompt | llm | JsonOutputParser()

def check_hallucination(state: AgentState) -> str:
    print("---检查幻觉---")
    context = "\n\n".join(doc.page_content for doc in state["documents"])
    result = hallucination_chain.invoke({
        "context": context,
        "generation": state["generation"],
    })
    if result["score"] == "yes":
        print("  ✅ 答案靠谱")
        return "useful"
    else:
        print("  ❌ 检测到幻觉，重新生成")
        return "hallucinate"

Step 4：定义路由逻辑（条件边）

节点之间怎么跳转，取决于状态。这是 Agentic RAG 的"大脑"：

def decide_next_step(state: AgentState) -> str:
    """根据打分后的文档数量决定下一步"""
    print("---决策下一步---")
    
    # 重试超过 2 次，直接生成（避免无限循环）
    if state.get("retry_count", 0) >= 2:
        print("  达到最大重试次数，强制生成")
        return "generate"
    
    # 没有相关文档 → 改写问题重试
    if not state["documents"]:
        print("  没有相关文档，改写问题")
        return "rewrite"
    
    # 有相关文档 → 生成答案
    print("  文档充足，准备生成")
    return "generate"

Step 5：组装图

from langgraph.graph import StateGraph, END

workflow = StateGraph(AgentState)

# 注册节点
workflow.add_node("retrieve", retrieve)
workflow.add_node("grade_documents", grade_documents)
workflow.add_node("rewrite", rewrite_question)
workflow.add_node("generate", generate)

# 定义边（流程）
workflow.set_entry_point("retrieve")
workflow.add_edge("retrieve", "grade_documents")

# 条件边：根据打分结果决定走哪里
workflow.add_conditional_edges(
    "grade_documents",
    decide_next_step,
    {
        "rewrite": "rewrite",
        "generate": "generate",
    },
)

# 改写后回到检索
workflow.add_edge("rewrite", "retrieve")

# 生成后检查幻觉
workflow.add_conditional_edges(
    "generate",
    check_hallucination,
    {
        "useful": END,
        "hallucinate": "generate",  # 有幻觉就重新生成
    },
)

app = workflow.compile()

Step 6：跑起来

result = app.invoke({
    "question": "公司的年假制度是怎样的？",
    "retry_count": 0,
})
print("\n" + "="*50)
print("最终答案：", result["generation"])

跑起来会看到类似这样的输出：

---检索中---
---评估文档相关性---
  ✅ 相关: 员工入职满一年可享受年假...
  ❌ 不相关，丢弃
  ✅ 相关: 年假天数根据工龄计算...
---决策下一步---
  文档充足，准备生成
---生成答案---
---检查幻觉---
  ✅ 答案靠谱
==================================================
最终答案：根据公司制度，员工入职满一年起享受年假...

1.4 Agentic RAG 效果对比

我在自己的测试集上简单跑了一下（50 个问题），感受一下提升：

指标	经典 RAG	Agentic RAG
准确率	72%	89%
幻觉率	18%	4%
平均耗时	2.1s	4.8s
平均 Token 消耗	1.2k	3.5k

可以看到 准确率和幻觉率大幅改善，但耗时和成本翻倍以上。所以要根据场景权衡——对准确率敏感的场景（医疗、法律、金融）值得，对延迟敏感的场景（实时客服）要谨慎。

1.5 什么时候用 Agentic RAG

✅ 适合：复杂问答、多跳推理、高准确率要求、允许较长响应时间 ❌ 不适合：实时对话、成本敏感、问题简单的 FAQ 场景

二、GraphRAG：让知识"连"起来

2.1 为什么经典 RAG 答不好关系型问题

假设你的知识库里有这样的内容：

张三于 2022 年加入 AI 组，担任算法工程师。李四是 AI 组的组长。王五是张三的同事，负责数据标注。

现在有个问题： "张三的直属领导是谁？"

经典 RAG 会去向量检索"张三的直属领导"这个 query，但文档里根本没有明确写"张三的领导是李四"这句话，这个关系是需要推理出来的。

向量检索擅长"找相似"，但对这种"实体关系推理"就很吃力。

2.2 GraphRAG 的核心思想

把文档抽成一张知识图谱（Knowledge Graph）：

(张三) --[属于]--> (AI 组) <--[领导]-- (李四)
(张三) --[同事]--> (王五)

然后检索时按图结构查询，而不是按向量相似度。上面这个问题变成一个图查询：

MATCH (zhang:Person {name:"张三"})-[:属于]->(team)<-[:领导]-(leader)
RETURN leader.name

答案一步查出来。

2.3 实战：用 LangChain + Neo4j 实现 GraphRAG

Step 1：准备 Neo4j

Neo4j 是最主流的图数据库，用 Docker 一键启动：

docker run -d \
    --name neo4j-rag \
    -p 7474:7474 -p 7687:7687 \
    -e NEO4J_AUTH=neo4j/password123 \
    neo4j:5

浏览器打开 http://localhost:7474 就能看到可视化界面。

Step 2：从文本抽取图结构

LangChain 有个神器叫 LLMGraphTransformer，能让 LLM 自动从文本中抽取实体和关系：

from langchain_experimental.graph_transformers import LLMGraphTransformer
from langchain_openai import ChatOpenAI
from langchain_core.documents import Document

llm = ChatOpenAI(model="gpt-4o", temperature=0)  # 抽取建议用强模型
llm_transformer = LLMGraphTransformer(llm=llm)

# 准备一些文本
text = """
张三于 2022 年加入 AI 组，担任算法工程师，主要负责大模型研发。
李四是 AI 组的组长，管理 8 人团队。
王五是张三的同事，负责数据标注工作。
AI 组隶属于技术中台，总监是赵六。
"""
documents = [Document(page_content=text)]

# 一键转成图
graph_documents = llm_transformer.convert_to_graph_documents(documents)

# 看看抽取出了什么
for gd in graph_documents:
    print("节点：", gd.nodes)
    print("关系：", gd.relationships)

输出大概长这样：

节点：[Node(id='张三', type='Person'), Node(id='AI组', type='Team'), ...]
关系：[Relationship(source=张三, target=AI组, type='属于'), ...]

Step 3：写入 Neo4j

from langchain_community.graphs import Neo4jGraph

graph = Neo4jGraph(
    url="bolt://localhost:7687",
    username="neo4j",
    password="password123",
)

graph.add_graph_documents(graph_documents)
graph.refresh_schema()
print(graph.schema)

Step 4：用自然语言查询图

GraphCypherQAChain 会自动把自然语言转成 Cypher 查询，再把结果交给 LLM 解读：

from langchain.chains import GraphCypherQAChain

chain = GraphCypherQAChain.from_llm(
    llm=llm,
    graph=graph,
    verbose=True,
    allow_dangerous_requests=True,  # 允许执行生成的 Cypher
)

result = chain.invoke({"query": "张三的直属领导是谁？"})
print(result["result"])

过程中你能看到 LLM 生成的 Cypher：

MATCH (p:Person {id: "张三"})-[:属于]->(t:Team)<-[:领导]-(leader:Person)
RETURN leader.id

2.4 Vector + Graph 混合检索

实际场景中，纯 GraphRAG 会丢失文档的原始语义细节（抽取时 LLM 会省略很多"次要"信息）。最佳实践是混合：

# 先用 Graph 查关系
graph_result = chain.invoke({"query": question})

# 再用向量检索补充上下文细节
vector_docs = retriever.invoke(question)

# 把两路结果都塞给 LLM
final_prompt = f"""
图谱查询结果：{graph_result['result']}

原文片段：
{chr(10).join(doc.page_content for doc in vector_docs)}

问题：{question}
"""
final_answer = llm.invoke(final_prompt)

2.5 什么时候用 GraphRAG

✅ 适合：医疗（疾病-症状-药物关系）、法律（法条-案例-判决）、企业知识图谱、学术文献 ❌ 不适合：内容松散、关系不明显的文档；成本敏感（抽取阶段 token 消耗大）

💡 进阶阅读：微软开源的 GraphRAG 在此基础上还加了"社区检测"——把密集关联的节点聚成社区，支持全局性问题（如"总结整个知识库的核心主题"），是目前最成熟的 GraphRAG 实现。

三、Multi-Modal RAG：不只看文字

3.1 经典 RAG 处理 PDF 的尴尬

上传一份公司年报，用 PyPDFLoader 加载后你会发现：

📊 财务报表 → 提取成一堆乱码或者完全丢失
📈 业务增长图 → 完全无视
🏗️ 组织架构图 → 变成无意义的文字碎片

而年报里最关键的信息，恰恰就藏在这些图表里。

3.2 三种技术路线

路线 A：多模态 Embedding（CLIP 类）

用 CLIP 这类模型把文字和图片都编码到同一个向量空间，检索时一次性返回相关的文字 + 图片。

👍 优点：端到端，架构最干净
👎 缺点：对复杂图表（如财务报表）理解有限

路线 B：图像转文字描述再检索（最实用 ⭐）

用多模态 LLM（GPT-4V / Claude）先给每张图生成一段描述文字，把描述文字做向量化检索。命中后，把原图（而不是描述）喂给下游 LLM 回答。

👍 优点：落地快、效果好、复用现有 RAG 基建
👎 缺点：离线处理成本高（每张图要调一次多模态 LLM）

路线 C：多模态 LLM 端到端

检索阶段拿回相关页的截图，直接把截图交给 GPT-4V / Claude 3.5 Sonnet 这类多模态 LLM 回答。

👍 优点：效果天花板最高
👎 缺点：成本最贵，不适合大规模

下面演示最实用的路线 B。

3.3 实战：处理带图表的 PDF

Step 1：用 Unstructured 做精细化解析

unstructured 库比 PyPDF 强大得多，能分别提取文字、表格、图片：

pip install "unstructured[all-docs]"
# macOS 还要装：brew install poppler tesseract libmagic

from unstructured.partition.pdf import partition_pdf

elements = partition_pdf(
    filename="./docs/annual_report.pdf",
    strategy="hi_res",              # 高精度模式，会识别表格和图片
    extract_images_in_pdf=True,     # 提取图片
    infer_table_structure=True,     # 识别表格结构
    extract_image_block_output_dir="./extracted_images",
)

# 分类各种元素
texts, tables, images = [], [], []
for el in elements:
    if "Table" in str(type(el)):
        tables.append(el)
    elif "Image" in str(type(el)):
        images.append(el)
    else:
        texts.append(el)

print(f"文本: {len(texts)}, 表格: {len(tables)}, 图片: {len(images)}")

Step 2：给图片和表格生成摘要

import base64
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage

vision_llm = ChatOpenAI(model="gpt-4o", max_tokens=1024)

def summarize_image(image_path: str) -> str:
    """用 GPT-4o 给图片生成摘要"""
    with open(image_path, "rb") as f:
        image_data = base64.b64encode(f.read()).decode("utf-8")
    
    msg = HumanMessage(content=[
        {"type": "text", "text": "请详细描述这张图表的内容，包括标题、数据、趋势。这段描述将用于文档检索。"},
        {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}},
    ])
    return vision_llm.invoke([msg]).content

def summarize_table(table_html: str) -> str:
    """给表格生成摘要"""
    prompt = f"请概括这个表格的内容、字段含义和关键数据。用于后续检索。\n\n表格：\n{table_html}"
    return vision_llm.invoke(prompt).content


# 批量处理
import os
image_summaries = []
for img_file in os.listdir("./extracted_images"):
    img_path = os.path.join("./extracted_images", img_file)
    summary = summarize_image(img_path)
    image_summaries.append({"path": img_path, "summary": summary})
    print(f"✅ {img_file}: {summary[:80]}...")

table_summaries = []
for tbl in tables:
    summary = summarize_table(tbl.metadata.text_as_html)
    table_summaries.append({"raw": tbl.metadata.text_as_html, "summary": summary})

Step 3：用 MultiVectorRetriever 实现"摘要检索、原始内容返回"

这是 Multi-Modal RAG 的精髓——摘要用于向量检索匹配，但最终喂给 LLM 的是原始图片/表格：

import uuid
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain.storage import InMemoryStore
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma

# 向量库存摘要
vectorstore = Chroma(
    collection_name="multimodal_rag",
    embedding_function=OpenAIEmbeddings(model="text-embedding-3-small"),
)

# 文档库存原始内容（图片路径、原始表格等）
docstore = InMemoryStore()
id_key = "doc_id"

retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    docstore=docstore,
    id_key=id_key,
)

# === 添加文本 ===
text_ids = [str(uuid.uuid4()) for _ in texts]
text_docs = [
    Document(page_content=str(t), metadata={id_key: text_ids[i], "type": "text"})
    for i, t in enumerate(texts)
]
retriever.vectorstore.add_documents(text_docs)
retriever.docstore.mset(list(zip(text_ids, [str(t) for t in texts])))

# === 添加图片（摘要入向量库，路径入文档库）===
img_ids = [str(uuid.uuid4()) for _ in image_summaries]
img_summary_docs = [
    Document(page_content=item["summary"], metadata={id_key: img_ids[i], "type": "image"})
    for i, item in enumerate(image_summaries)
]
retriever.vectorstore.add_documents(img_summary_docs)
retriever.docstore.mset(list(zip(img_ids, [item["path"] for item in image_summaries])))

# === 添加表格（同理）===
table_ids = [str(uuid.uuid4()) for _ in table_summaries]
table_summary_docs = [
    Document(page_content=item["summary"], metadata={id_key: table_ids[i], "type": "table"})
    for i, item in enumerate(table_summaries)
]
retriever.vectorstore.add_documents(table_summary_docs)
retriever.docstore.mset(list(zip(table_ids, [item["raw"] for item in table_summaries])))

Step 4：回答问题时带上图片

def multimodal_rag_answer(question: str):
    # 检索（返回的是原始图片路径/表格/文本）
    results = retriever.invoke(question)
    
    # 构建多模态消息
    content = [{"type": "text", "text": f"基于下面的资料回答：{question}\n\n"}]
    
    for r in results:
        if isinstance(r, str) and r.startswith("./extracted_images"):
            # 是图片，转 base64 附上
            with open(r, "rb") as f:
                img_data = base64.b64encode(f.read()).decode("utf-8")
            content.append({
                "type": "image_url",
                "image_url": {"url": f"data:image/jpeg;base64,{img_data}"},
            })
        else:
            # 是文本或表格
            content.append({"type": "text", "text": str(r)})
    
    response = vision_llm.invoke([HumanMessage(content=content)])
    return response.content


# 试一下
answer = multimodal_rag_answer("2023 年第四季度的营收增长率是多少？")
print(answer)

这样，当用户问"2023 年第四季度营收"时，系统会：

匹配到营收图表的摘要
把原图喂给 GPT-4o
GPT-4o 直接看图回答

3.4 什么时候用 Multi-Modal RAG

✅ 适合：年报分析、学术论文、产品手册、医学影像报告、设计文档 ❌ 不适合：纯文本内容（浪费成本）、隐私敏感场景（图片会上传给第三方 LLM）

四、三种方案怎么选？

先看一张对比表：

维度	Agentic RAG	GraphRAG	Multi-Modal RAG
解决的核心问题	流程不灵活	关系型查询	多模态内容
实现复杂度	中	高	中-高
离线成本	低	高（抽取）	高（图片摘要）
在线成本	高（多轮 LLM）	中	高（视觉模型）
准确率提升	⭐⭐⭐⭐	⭐⭐⭐⭐⭐（关系型）	⭐⭐⭐⭐⭐（多模态）
延迟	慢	快	中
典型场景	通用高质量问答	医疗/法律/金融	年报/论文

选型决策树

你的核心痛点是什么？
├─ 问答质量不够稳定 → Agentic RAG（最通用）
├─ 有大量实体关系查询需求 → GraphRAG
├─ 文档里图表很多 → Multi-Modal RAG
└─ 全都中 → 三个一起上（见下方"组合拳"）

组合拳：生产环境真实架构

实际上线的复杂系统往往是三者混合。举个例子——一个金融研报分析助手：

底层用 Multi-Modal RAG：因为研报里大量图表
中层用 GraphRAG：建立公司、行业、人员之间的关联图谱
顶层套 Agentic RAG：让 LLM 决定每个问题调用哪一路检索

这样的架构能把三种方案的优点全部吃到，代价是工程复杂度和运维成本都会显著增加。建议按需叠加，别一上来就搞全家桶。

写在最后

经典 RAG 解决了"能不能用"的问题，进阶 RAG 在解决"好不好用"。这三个方向分别从决策层、知识表示层、模态层三个维度突破：

Agentic RAG：让流程变聪明
GraphRAG：让知识变立体
Multi-Modal RAG：让感知变全面

下一篇我准备写 RAG 评估体系——辛辛苦苦做了这些优化，怎么量化证明真的变好了？怎么搭建一个自动化的 RAG 评估流水线？感兴趣的朋友点个关注不迷路