RAG、LLM Wiki 与 PageIndex 三种检索范式对比

52 阅读5分钟

三者本质上回答的是同一个问题:怎么让 LLM 用上比上下文窗口更多的知识? 但它们给出的答案完全不同 —— 在"什么时候做工作"和"知识以什么形态存在"这两件事上分歧巨大。


一、三种范式概览

经典 RAG(向量 + 分块 + 检索)

  • 核心思想:查询时按相似度从原始片段拉答案
  • 工作发生在:查询时 — 嵌入 → 检索 → 生成
  • 知识形态:向量库中的原始文本块
  • 最适合的场景:大规模语料、数据频繁变化
  • 主要短板:分块割裂上下文;相似 ≠ 相关

LLM Wiki(Karpathy 范式,2026)

  • 核心思想:摄入时一次性编译,沉淀成持久维基
  • 工作发生在:摄入时 — 合并、改写、互链
  • 知识形态:人类可读 Markdown,实体页 + 双向链接
  • 最适合的场景:长期沉淀的领域知识、需要跨文档综合
  • 主要短板:摄入慢且费 token;需要人维护 schema

PageIndex(树搜索,无向量)

  • 核心思想:把目录树放进上下文,让模型推理着翻页
  • 工作发生在:摄入时建树,查询时推理导航
  • 知识形态:JSON 目录树,章节 → 小节 → 页
  • 最适合的场景:长篇结构化文档,如财报、合同、法规
  • 主要短板:建树成本高;非结构化文档不适用

image.png

二、用一个具体场景理解差异

假设你有一份 300 页的年报,想问"递延资产的总价值是多少?"。

经典 RAG 的做法

把全文切成 512 token 的小块,每块嵌入成向量。查询时把"递延资产 总价值"也变成向量,从向量库里捞出余弦相似度最高的几块塞给 LLM。

问题是:向量检索假设语义上最相似的文本就是最相关的,但在专业领域这个假设经常失效。"递延资产"在文档里可能出现 50 处,但真正含答案的那段可能用的是"延期项目""未来期间收益"这类近义词,反而被埋掉。

LLM Wiki 的做法

它根本不在查询时检索原文。当你把这份年报喂进去时,系统会让 LLM 把它"消化"一遍:抽出关键实体、生成结构化的 Markdown 维基页(比如一个"递延资产"页),再把它和已有维基互链、综合、修订。

合成提示词强制一个不变量:"保留并扩展现有内容 —— 永远不丢弃页面上已有的信息"。这就是知识能复利而非覆盖的原因。下次你问问题时,模型查的是这份它自己写的、不断长大的维基,而不是原始 PDF。

PageIndex 的做法

它像 AlphaGo 下棋一样让 LLM 在"目录树"里搜索。PageIndex 不预先计算向量,而是构建一棵代表文档结构的"全局索引"树,节点对应章节、小节、子节。查询到来时,LLM 执行树搜索,基于查询的完整上下文,显式地把每个节点判定为相关或不相关。

回到那份年报:模型会推理"递延资产总额一般在财务摘要或附录 G 里,先去那儿看",然后逐层下钻 —— 这正是人类专家的读法。


三、横向对比表

维度经典 RAGLLM WikiPageIndex
工作时机查询时摄入时(重)摄入 + 查询
知识载体向量 + 原文块LLM 写的 Markdown文档结构树
数据库向量库(Pinecone / FAISS)文件系统 + 可选向量关系库即可(PostgreSQL)
是否复利否,每次从零,每次更新维基否,树是只读
解释性弱(为什么取这块?)强(链接可追溯)强(树搜索有审计轨迹)
摄入成本低(只嵌入)很高(LLM 通读 + 综合)中(LLM 建结构)
查询成本
抗噪能力弱(分块易丢上下文)强(已综合过)强(LLM 推理过滤)

四、怎么选

选经典 RAG,如果……

你面对的是 变化频繁、规模庞大、查询型 的语料(客服知识库、产品文档、企业搜索)。它的工程成本最低,生态也最成熟。

选 LLM Wiki,如果……

你想构建的是 个人或团队长期的领域知识,源材料相对稳定、需要跨文档综合(研究笔记、行业研究、组织记忆)。它的核心价值在于"知识会复利",而不是每次重新拼图。这也是为什么 Karpathy 把它形容为"摆脱无状态 RAG"的方案。

选 PageIndex,如果……

你处理的是 长篇结构化文档 —— 财务报表、法律合同、技术规范 —— 而且 解释性和准确率比规模更重要。这个开源框架在复杂文档检索上达到了 98.7% 的准确率,完全不需要专门的向量数据库。代价是它对文档结构有要求 —— 一堆零散的微博帖子套不上这套机制。


五、最后一点

三者并非互斥。在实际系统里,完全可以让:

  • LLM Wiki 作为知识沉淀层
  • PageIndex 作为长文档子系统
  • 经典向量 RAG 作为大规模兜底检索

三者各司其职,而不是互相替代。这才是工程现实里的常态。


参考资料

  • Andrej Karpathy, LLM Wiki Pattern(2026 年 4 月提出)
  • Vectify AI, PageIndex GitHub 仓库
  • VentureBeat 报道:PageIndex 在复杂文档检索上达到 98.7% 准确率