用代理知识蒸馏方法克服错误的文档摄取和RAG策略

141 阅读10分钟

用代理知识蒸馏方法克服错误的文档摄取和RAG策略

关键要点

  • 研究表明,Agentic Knowledge Distillation + Pyramid Search Approach 可能有效提升 RAG 系统的文档摄取和信息检索效率。
  • 证据倾向于支持该方法通过分层信息金字塔结构处理复杂文档,特别是在处理金融报告时表现优异。
  • 该方法似乎特别适合处理需要跨文档概念理解的复杂问题,但评估其效果仍存在争议,尤其是对于没有单一正确答案的查询。

直接回答

概述

Agentic Knowledge Distillation + Pyramid Search Approach 是一种创新方法,旨在改进生成式 AI 中的检索增强生成(RAG)系统,特别是在文档摄取和信息检索方面表现不佳时。该方法由 Jim Brown、Mason Sawtell 和 Sandi Besen 等人开发,特别适用于处理如道琼斯工业平均指数(Dow Jones Industrial Average)公司年度和季度报告等复杂文档集。

如何工作

该方法通过在文档摄取阶段利用大型语言模型(LLM)的能力,创建多层次的信息金字塔:

  • 转换文档:将原始文档转换为 Markdown 格式,便于模型处理。
  • 提取原子洞见:使用两页滑动窗口,从每页提取简单的主谓宾(SVO)格式的洞见,确保清晰和精确,尤其在处理表格数据时效果显著。
  • 提炼概念:从洞见中识别更高层次的概念,连接相关信息,减少噪音和冗余。
  • 生成摘要:为每份文档生成比原始摘要更全面、更信息密集的摘要。
  • 存储回忆/记忆:在金字塔顶端存储跨文档有用的关键信息,如用户特定信息或数据集知识。
  • 数据库存储:将每个层次的文本和嵌入存储在数据库中,以便高效检索。

在推理阶段,AI 代理利用这一结构化金字塔回答用户问题,可以通过传统 RAG 或代理式方法(agentic approach)进行,代理会规划、检索和评估信息后再给出最终回答。

关键优势
  • 减少模型的认知负荷,免于处理原始格式不一致的文档。
  • 提高表格数据处理能力,将表格信息转化为清晰句子,便于检索。
  • 提升对事实查找和复杂分析问题的响应质量。
  • 优化令牌使用,加快响应速度,降低成本。
  • 扩展性强,能高效处理大型文档集。
  • 促进概念探索,代理能自然地探索相关信息。
  • 意外地增强数据集理解,系统能提供关于数据集本身的洞见。
应用示例

该方法已应用于 2024 年道琼斯工业平均指数 30 家公司(包括苹果、微软、IBM 等)的年度和季度报告,下载自 SEC EDGAR 网站 (SEC EDGAR)。例如:

  • 事实查找:回答“IBM 2024 年第三季度总收入是多少?”使用 9,994 个总令牌,1,240 个用于最终响应。
  • 复杂研究:分析微软和英伟达在 AI 投资和市场定位,响应使用 26,802 个总令牌,约 11% 用于最终报告。
挑战与未来方向

评估该系统存在挑战,尤其是对没有单一正确答案的复杂问题。未来可能用于组织数据对齐,识别业务领域的差异。

一个意外的细节是,该方法不仅提升检索效率,还能通过金字塔高层(如摘要和回忆)提供数据集的整体理解,适合业务场景如“告诉我关于客户 X 的一切”。


详细报告

引言

Agentic Knowledge Distillation + Pyramid Search Approach 是一种旨在克服 RAG 系统文档摄取和信息检索失败的新方法,特别适用于处理复杂文档集,如金融报告。该方法由 Jim Brown、Mason Sawtell 和 Sandi Besen 领导的团队开发,发表于 2025 年 3 月 5 日的 Towards Data Science 文章 (Overcome Failing Document Ingestion & RAG Strategies with Agentic Knowledge Distillation)。本文将详细探讨该方法的运作机制、关键优势、应用示例以及面临的挑战和未来方向。

方法详解
文档摄取过程

该方法的核心在于创建多层次的信息金字塔,具体步骤如下:

  1. 文档转换为 Markdown

    • 所有原始文档转换为 Markdown 格式,理由是模型处理 Markdown 比 JSON 等格式更高效,且令牌使用更经济。团队使用 Azure Document Intelligence 生成每页的 Markdown,也可使用开源库如 MarkItDown。
  2. 提取原子洞见

    • 使用两页滑动窗口处理文档,每页被分析两次,允许模型纠正潜在错误。模型被指示生成编号列表的洞见,遵循 SVO 格式,句子简洁清晰,如“IBM 报告第三季度收入 149.68 亿美元”。这种格式特别适合非英语母语用户,提高表现力。数据集(331 份文档,16,601 页)产生了 216,931 个洞见,平均每页 13 个,每文档 655 个。
  3. 从洞见提炼概念

    • 从详细洞见列表中识别连接相关信息的更高层次概念,减少噪音和冗余。数据集产生了 14,824 个概念,平均每页 1 个,每文档 45 个。
  4. 从概念生成摘要

    • 基于洞见和概念,LLM 为每份文档生成摘要,比人类撰写的摘要更全面、更信息密集。生成 331 个摘要,每个文档一个。
  5. 存储跨文档回忆/记忆

    • 在金字塔顶端存储对所有任务有用的关键信息,如当前道琼斯 30 家公司列表(与模型知识截止时间不同),或代理通过研究任务学到的信息(如公司 AI 策略)。这揭示跨文档关系,如投资重点。
存储与检索
  • 文本和嵌入存储在 Azure PostgreSQL 中,最初使用 Azure AI Search,但因成本原因切换。需要自定义混合搜索功能,因 PostgreSQL 不原生支持。理论上可与任何向量数据库或索引配合。
推理阶段
  • 在推理时,传统 RAG 或代理式方法均可受益于预处理的信息金字塔。代理使用 PydanticAI 创建搜索代理,生成搜索词,探索相关想法,跟踪相关信息,直至有足够信息回答用户请求。代理可访问金字塔所有层次,或仅特定层次(如概念)。实验中未检索原始页级数据,专注于令牌效率,洞见、概念、摘要和回忆已足够。
关键优势

以下是该方法的主要优势,基于团队的观察和测试:

  • 减少模型认知负荷:代理接收用户任务时,检索的是预处理、精炼的信息,而非原始格式不一致的文档块,减少模型首次理解文本的负担。
  • 优越的表格处理:将表格信息分解为简洁描述性句子,便于通过自然语言查询检索,特别适合金融报告中大量关键表格数据。
  • 提升多种请求的响应质量:金字塔支持对精确事实查找和跨多文档主题分析的全面、上下文感知响应。
  • 保留关键上下文:精炼过程识别并跟踪关键事实,确保重要但可能仅出现一次的信息(如所有表格单位为百万美元)不丢失。
  • 优化令牌使用、内存和速度:摄取时精炼信息,显著减少推理时令牌需求,最大化上下文窗口信息价值。
  • 扩展性:随着文档数据集规模增长,该方法更高效,仅保留关键信息,优化 LLM 上下文窗口使用。
  • 高效概念探索:类似知识图谱导航,但信息以自然语言存储,代理可通过自然语言探索,保持高令牌效率。
  • 涌现的数据集理解:测试中发现,系统能回答如“告诉我关于这个数据集的事”或“能问什么类型的问题?”,因能访问金字塔高层(如摘要和回忆)。
应用示例与结果

团队测试了多种问题类别,包括事实查找和复杂跨文档研究任务,使用 2024 年道琼斯 30 家公司(包括苹果、微软、IBM、英伟达等)的年度和季度报告,下载自 SEC EDGAR 网站 (SEC EDGAR),符合 SEC 隐私政策,信息为公共信息,可免费下载或查询。

事实查找(精准检索)
  • 示例任务:“IBM 2024 年第三季度总收入是多少?”

    • 响应:“IBM 2024 年第三季度总收入为 149.68 亿美元 [ibm-10q-q3-2024.pdf, pg. 4]”。
    • 使用总令牌 9,994,生成最终响应 1,240 个令牌,人类验证正确。
复杂研究与分析
  • 示例任务:“分析微软和英伟达在 AI 投资和市场定位。”

    • 响应为详细报告,执行快速,总令牌 26,802,约 11%(2,893 个)用于最终响应,人类验证有效。
  • 示例任务:“创建报告,分析道琼斯金融公司披露的风险,指出共享和独特风险。”

    • 响应在 42.7 秒内完成,总令牌 31,685,生成报告 3,116 个令牌,人类验证有效。

这些结果显示金字塔方法高效生成详细报告,低延迟,少量令牌,信息密度高,噪音少。

挑战与未来方向
挑战
  • 评估系统困难,尤其对复杂问题(如“客户 A 和 B 的行为有何不同?我更可能与谁成功会面?”),传统 RAG 和代理评估框架常不足。现有数据集多聚焦单文档或精确多文档检索,而非跨文档概念和主题分析。
  • 实时数据集(如持续添加、编辑、删除文档)评估困难,因正确答案随信息变化。
未来方向
  • 金字塔可处理密集文档,存储学到的回忆,跟踪回忆有效性为关键焦点。
  • 应用于组织数据,可识别业务领域差异,如上传所有销售演示文稿,揭示产品定位不一致,或比较业务线数据,理解冲突理解或优先级。
讨论与比较

该方法与现有知识蒸馏在信息检索中的应用(如 Knowledge Distillation in Document Retrieval)有相似之处,均利用教师-学生模型优化效率。但用户方法更聚焦文档摄取结构化,创建金字塔,而非模型训练优化。Amazon 的 ReAugKD (Inside ReAugKD: Amazon’s Method) 结合 RAG 和 KD 提升模型性能,侧重训练,而用户方法侧重预处理。

结论

Agentic Knowledge Distillation + Pyramid Search Approach 显著提升 RAG 系统性能,特别适合处理复杂文档集,优化令牌使用,快速生成高质量响应。未来需解决评估挑战,扩展至组织数据对齐,潜力巨大。

表格:关键指标对比
任务类型示例问题总令牌数最终响应令牌完成时间备注
事实查找IBM 2024 Q3 总收入是多少?9,9941,240-人类验证正确
复杂研究(AI 投资)分析微软和英伟达 AI 投资和市场定位26,8022,893-报告详细,人类验证有效
复杂研究(风险分析)分析道琼斯金融公司风险,共享与独特31,6853,11642.7秒报告详细,人类验证有效

关键引用