用代理知识蒸馏方法克服错误的文档摄取和RAG策略用代理知识蒸馏方法克服错误的文档摄取和RAG策略关键要点研究表明，A

用代理知识蒸馏方法克服错误的文档摄取和RAG策略

关键要点

研究表明，Agentic Knowledge Distillation + Pyramid Search Approach 可能有效提升 RAG 系统的文档摄取和信息检索效率。
证据倾向于支持该方法通过分层信息金字塔结构处理复杂文档，特别是在处理金融报告时表现优异。
该方法似乎特别适合处理需要跨文档概念理解的复杂问题，但评估其效果仍存在争议，尤其是对于没有单一正确答案的查询。

直接回答

概述

Agentic Knowledge Distillation + Pyramid Search Approach 是一种创新方法，旨在改进生成式 AI 中的检索增强生成（RAG）系统，特别是在文档摄取和信息检索方面表现不佳时。该方法由 Jim Brown、Mason Sawtell 和 Sandi Besen 等人开发，特别适用于处理如道琼斯工业平均指数（Dow Jones Industrial Average）公司年度和季度报告等复杂文档集。

如何工作

该方法通过在文档摄取阶段利用大型语言模型（LLM）的能力，创建多层次的信息金字塔：

转换文档：将原始文档转换为 Markdown 格式，便于模型处理。
提取原子洞见：使用两页滑动窗口，从每页提取简单的主谓宾（SVO）格式的洞见，确保清晰和精确，尤其在处理表格数据时效果显著。
提炼概念：从洞见中识别更高层次的概念，连接相关信息，减少噪音和冗余。
生成摘要：为每份文档生成比原始摘要更全面、更信息密集的摘要。
存储回忆/记忆：在金字塔顶端存储跨文档有用的关键信息，如用户特定信息或数据集知识。
数据库存储：将每个层次的文本和嵌入存储在数据库中，以便高效检索。

在推理阶段，AI 代理利用这一结构化金字塔回答用户问题，可以通过传统 RAG 或代理式方法（agentic approach）进行，代理会规划、检索和评估信息后再给出最终回答。

关键优势

减少模型的认知负荷，免于处理原始格式不一致的文档。
提高表格数据处理能力，将表格信息转化为清晰句子，便于检索。
提升对事实查找和复杂分析问题的响应质量。
优化令牌使用，加快响应速度，降低成本。
扩展性强，能高效处理大型文档集。
促进概念探索，代理能自然地探索相关信息。
意外地增强数据集理解，系统能提供关于数据集本身的洞见。

应用示例

该方法已应用于 2024 年道琼斯工业平均指数 30 家公司（包括苹果、微软、IBM 等）的年度和季度报告，下载自 SEC EDGAR 网站 (SEC EDGAR)。例如：

事实查找：回答“IBM 2024 年第三季度总收入是多少？”使用 9,994 个总令牌，1,240 个用于最终响应。
复杂研究：分析微软和英伟达在 AI 投资和市场定位，响应使用 26,802 个总令牌，约 11% 用于最终报告。

挑战与未来方向

评估该系统存在挑战，尤其是对没有单一正确答案的复杂问题。未来可能用于组织数据对齐，识别业务领域的差异。

一个意外的细节是，该方法不仅提升检索效率，还能通过金字塔高层（如摘要和回忆）提供数据集的整体理解，适合业务场景如“告诉我关于客户 X 的一切”。

详细报告

引言

Agentic Knowledge Distillation + Pyramid Search Approach 是一种旨在克服 RAG 系统文档摄取和信息检索失败的新方法，特别适用于处理复杂文档集，如金融报告。该方法由 Jim Brown、Mason Sawtell 和 Sandi Besen 领导的团队开发，发表于 2025 年 3 月 5 日的 Towards Data Science 文章 (Overcome Failing Document Ingestion & RAG Strategies with Agentic Knowledge Distillation)。本文将详细探讨该方法的运作机制、关键优势、应用示例以及面临的挑战和未来方向。

方法详解

文档摄取过程

该方法的核心在于创建多层次的信息金字塔，具体步骤如下：

文档转换为 Markdown：
- 所有原始文档转换为 Markdown 格式，理由是模型处理 Markdown 比 JSON 等格式更高效，且令牌使用更经济。团队使用 Azure Document Intelligence 生成每页的 Markdown，也可使用开源库如 MarkItDown。
提取原子洞见：
- 使用两页滑动窗口处理文档，每页被分析两次，允许模型纠正潜在错误。模型被指示生成编号列表的洞见，遵循 SVO 格式，句子简洁清晰，如“IBM 报告第三季度收入 149.68 亿美元”。这种格式特别适合非英语母语用户，提高表现力。数据集（331 份文档，16,601 页）产生了 216,931 个洞见，平均每页 13 个，每文档 655 个。
从洞见提炼概念：
- 从详细洞见列表中识别连接相关信息的更高层次概念，减少噪音和冗余。数据集产生了 14,824 个概念，平均每页 1 个，每文档 45 个。
从概念生成摘要：
- 基于洞见和概念，LLM 为每份文档生成摘要，比人类撰写的摘要更全面、更信息密集。生成 331 个摘要，每个文档一个。
存储跨文档回忆/记忆：
- 在金字塔顶端存储对所有任务有用的关键信息，如当前道琼斯 30 家公司列表（与模型知识截止时间不同），或代理通过研究任务学到的信息（如公司 AI 策略）。这揭示跨文档关系，如投资重点。

存储与检索

文本和嵌入存储在 Azure PostgreSQL 中，最初使用 Azure AI Search，但因成本原因切换。需要自定义混合搜索功能，因 PostgreSQL 不原生支持。理论上可与任何向量数据库或索引配合。

推理阶段

在推理时，传统 RAG 或代理式方法均可受益于预处理的信息金字塔。代理使用 PydanticAI 创建搜索代理，生成搜索词，探索相关想法，跟踪相关信息，直至有足够信息回答用户请求。代理可访问金字塔所有层次，或仅特定层次（如概念）。实验中未检索原始页级数据，专注于令牌效率，洞见、概念、摘要和回忆已足够。

关键优势

以下是该方法的主要优势，基于团队的观察和测试：

减少模型认知负荷：代理接收用户任务时，检索的是预处理、精炼的信息，而非原始格式不一致的文档块，减少模型首次理解文本的负担。
优越的表格处理：将表格信息分解为简洁描述性句子，便于通过自然语言查询检索，特别适合金融报告中大量关键表格数据。
提升多种请求的响应质量：金字塔支持对精确事实查找和跨多文档主题分析的全面、上下文感知响应。
保留关键上下文：精炼过程识别并跟踪关键事实，确保重要但可能仅出现一次的信息（如所有表格单位为百万美元）不丢失。
优化令牌使用、内存和速度：摄取时精炼信息，显著减少推理时令牌需求，最大化上下文窗口信息价值。
扩展性：随着文档数据集规模增长，该方法更高效，仅保留关键信息，优化 LLM 上下文窗口使用。
高效概念探索：类似知识图谱导航，但信息以自然语言存储，代理可通过自然语言探索，保持高令牌效率。
涌现的数据集理解：测试中发现，系统能回答如“告诉我关于这个数据集的事”或“能问什么类型的问题？”，因能访问金字塔高层（如摘要和回忆）。

应用示例与结果

团队测试了多种问题类别，包括事实查找和复杂跨文档研究任务，使用 2024 年道琼斯 30 家公司（包括苹果、微软、IBM、英伟达等）的年度和季度报告，下载自 SEC EDGAR 网站 (SEC EDGAR)，符合 SEC 隐私政策，信息为公共信息，可免费下载或查询。

事实查找（精准检索）

示例任务：“IBM 2024 年第三季度总收入是多少？”
- 响应：“IBM 2024 年第三季度总收入为 149.68 亿美元 [ibm-10q-q3-2024.pdf, pg. 4]”。
- 使用总令牌 9,994，生成最终响应 1,240 个令牌，人类验证正确。

复杂研究与分析

示例任务：“分析微软和英伟达在 AI 投资和市场定位。”
- 响应为详细报告，执行快速，总令牌 26,802，约 11%（2,893 个）用于最终响应，人类验证有效。
示例任务：“创建报告，分析道琼斯金融公司披露的风险，指出共享和独特风险。”
- 响应在 42.7 秒内完成，总令牌 31,685，生成报告 3,116 个令牌，人类验证有效。

这些结果显示金字塔方法高效生成详细报告，低延迟，少量令牌，信息密度高，噪音少。

挑战与未来方向

挑战

评估系统困难，尤其对复杂问题（如“客户 A 和 B 的行为有何不同？我更可能与谁成功会面？”），传统 RAG 和代理评估框架常不足。现有数据集多聚焦单文档或精确多文档检索，而非跨文档概念和主题分析。
实时数据集（如持续添加、编辑、删除文档）评估困难，因正确答案随信息变化。

未来方向

金字塔可处理密集文档，存储学到的回忆，跟踪回忆有效性为关键焦点。
应用于组织数据，可识别业务领域差异，如上传所有销售演示文稿，揭示产品定位不一致，或比较业务线数据，理解冲突理解或优先级。

讨论与比较

该方法与现有知识蒸馏在信息检索中的应用（如 Knowledge Distillation in Document Retrieval）有相似之处，均利用教师-学生模型优化效率。但用户方法更聚焦文档摄取结构化，创建金字塔，而非模型训练优化。Amazon 的 ReAugKD (Inside ReAugKD: Amazon’s Method) 结合 RAG 和 KD 提升模型性能，侧重训练，而用户方法侧重预处理。

结论

Agentic Knowledge Distillation + Pyramid Search Approach 显著提升 RAG 系统性能，特别适合处理复杂文档集，优化令牌使用，快速生成高质量响应。未来需解决评估挑战，扩展至组织数据对齐，潜力巨大。

表格：关键指标对比

任务类型	示例问题	总令牌数	最终响应令牌	完成时间	备注
事实查找	IBM 2024 Q3 总收入是多少？	9,994	1,240	-	人类验证正确
复杂研究（AI 投资）	分析微软和英伟达 AI 投资和市场定位	26,802	2,893	-	报告详细，人类验证有效
复杂研究（风险分析）	分析道琼斯金融公司风险，共享与独特	31,685	3,116	42.7秒	报告详细，人类验证有效

用代理知识蒸馏方法克服错误的文档摄取和RAG策略