LumberChunker:长叙事文档分割
作者:André V. Duarte, João Marques, Miguel Graça, Miguel Freire, Lei Li, Arlindo Oliveira
隶属机构:IST, NeuralShift AI, 某机构
发布日期:2026年3月17日
链接:论文 | [代码](github.com/ example) | [数据](github.com/ example)
LumberChunker 让大语言模型决定长篇故事的分割位置,生成更自然的文本块,从而帮助检索增强生成系统更准确地检索信息。
引言
长篇叙事文档通常具有明确的结构(如章节),但这些单元对于检索任务而言往往过于宽泛。在更低层级上,重要的语义转变发生在这些大段内部,却没有明显的结构断裂。当仅依据格式标记(如段落或固定词元窗口)分割文本时,本属于同一叙事单元的段落可能被分开,而不相关的内容却可能被归在一起。这种结构与意义之间的错位会产生包含不完整或混杂语境的文本块,从而降低检索质量,影响下游 RAG 的性能。因此,分割应以创建语义独立的文本块为目标,而非仅依赖文档结构。
LumberChunker 方法
该方法将分割视为边界发现问题:给定一个由连续段落组成的短序列,让语言模型识别内容发生明显转变的最早点。这使得文本块长度可变,同时与底层叙事结构保持一致。具体步骤如下:
-
文档段落提取:将书籍干净地拆分为段落,并为每个段落分配稳定 ID(ID:1, ID:2, …)。这保留了文档的自然话语单元,并提供了安全的候选边界。
-
为 LLM 进行 ID 分组:通过追加段落构建组 G_i,直到组长度达到词元预算 θ,为模型判断主题/场景何时真正转变提供足够的上下文。
示例:θ = 550 词元时,构建 G_1 = [ID:1, ID:2, ID:3, ID:4, ID:5, ID:6]。这个窗口跨越多个段落,增加了上下文中至少出现一次有意义的叙事转变的可能性。
-
LLM 查询:用 G_i 中的段落提示模型,要求其返回内容相对于之前明显变化的第一个段落,将该 ID 作为文本块边界;从该段落开始下一组,重复直至书籍结束。
示例:给定 G_1 = [p1, p2, p3, p4, p5, p6],LLM 响应:p3。提取 p3 作为边界,产生:块1:[p1, p2];下一组(G_2)从 p3 开始。
GutenQA:长篇叙事检索基准
为了评估分割方法,引入了 GutenQA,一个包含 100 本精心清洗的公版书籍及 3000 个“大海捞针”式问题的基准,可直接衡量检索质量,并观察更好的检索如何在 RAG 系统中带来更准确的答案。
主要发现
检索:LumberChunker 在 DCG@k 和 Recall@k 上均领先。在 k=20 时,DCG 达到约 62.1%,召回率达到约 77.9%,表明更好的分割不仅能提升相关段落排位,还能提高正确上下文被检索的可靠性。
下游问答:针对性检索优于大上下文窗口。即使使用非常大的上下文窗口,非检索设置的表现仍不如 RAG,说明选择聚焦的相关段落比单纯增加原始上下文量更有效。集成到标准 RAG 流程后,RAG-LumberChunker 的表现仅次于使用人工分割真值块的 RAG-Manual。
θ ≈ 550 词元是最优点:在 θ ∈ [450, 1000] 词元范围内,550 词元持续最大化检索质量:足够提供上下文,又足够小以保持模型关注故事当前转折。实际中平均文本块大小约为 334 词元,表明 LumberChunker 常在窗口内检测到更早的语义转变。
结论
LumberChunker 将文档分割重构为语义边界检测问题。它不依赖固定词元限制或表面结构,而是使用滚动上下文窗口识别文本意义变得独立于之前内容的最早点,从而生成与底层叙事结构更一致的片段。在 GutenQA 基准上,LumberChunker 持续改进了检索和下游问答性能,接近人工精心分割的质量。结果表明,分割不仅仅是预处理步骤,更是检索系统的核心设计选择。
引用
如果研究发现 LumberChunker 有用,请考虑引用:
@inproceedings{duarte-etal-2024-lumberchunker,
title = "LumberChunker: Long-Form Narrative Document Segmentation",
author = "Duarte, Andr{\'e} V. and Marques, Jo{\~a}o DS and Gra{\c{c}}a, Miguel and Freire, Miguel and Li, Lei and Oliveira, Arlindo L.",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2024",
year = "2024",
pages = "6473--6486"
}
博客由 Raymond Jiang 和 André Duarte 创建
♥40 1342FINISHED