解决 RAG 文档分块痛点,HiChunk 框架让检索质量大幅提升!
在大模型时代,检索增强生成(RAG)已成为解决模型幻觉、补充实时与专业知识的核心技术。但RAG 系统中 “文档分块” 这一关键环节,长期缺乏有效的评估工具和优化方案,严重影响检索与生成质量。
近日,腾讯优图实验室发表的 HiChunk 相关研究,不仅提出了首个针对性评估基准 HiCBench,还设计出分层分块框架与自动合并检索算法,为 RAG 文档分块难题提供了完整解决方案。
一、文档分块为何总拖后腿?【大模型教程】
文档分块是 RAG 的基础步骤,它将长文档切割成可检索的片段,直接决定后续检索准确性与生成质量。但长期以来,这一环节存在两大核心问题:
- 评估工具缺失:现有 RAG 基准(如 Qasper、GutenQA)普遍存在 “证据稀疏” 问题 , 单个查询仅关联文档中 1-2 个句子。但实际用户需求(如总结、枚举)常需 “证据密集型” 处理,现有基准无法有效衡量分块方法优劣。
- 分块方法局限:传统分块要么采用固定长度(如每 200 词一块),易割裂语义;要么仅支持单一层级分块,无法适配不同语义粒度的查询需求,导致检索时要么信息不全、要么冗余过多。
二、首个专为分块设计的评估基准
为解决评估难题,研究团队构建了HiCBench 基准,核心包含三大组件:
- 人工标注分层分块点:基于 OHRBench 文档,手动标注多层级分块边界(如章节、段落),可直接衡量分块准确性。
- 证据密集型 QA 对:通过 LLM 生成并筛选两类 QA 任务 —— 单块证据密集型(T₁)和多块证据密集型(T₂),确保每个查询需完整关联语义块才能回答。
- 精准证据来源:为每个 QA 对标注明确证据句子,排除无效样本,保证评估可靠性。
对比现有基准,HiCBench 的优势一目了然:其 QA 对的平均证据长度达 560 词、包含 20 个句子,远高于传统基准的 36-239 词,能更真实地测试分块方法在实际场景的表现。
三、让文档分块 “懂分层、会适配”
针对分块方法局限,研究团队提出HiChunk 分层分块框架,结合Auto-Merge 自动合并检索算法,形成 “分块 - 检索” 全流程优化方案。
1. 分层分块:让文档有 “结构感”
HiChunk 通过微调后的 LLM(基于 Qwen3-4B),将文档转化为多层级结构:
- 训练阶段:利用 Gov-report、Qasper 等含明确结构的数据集,让模型学会识别分块边界与层级关系。
- 推理阶段:对超长文档采用 “迭代推理”—— 先处理固定长度片段,标注局部分块点,再合并为全局分层结构,避免上下文窗口限制。
例如,一篇技术文档可被分为 “摘要(L₁)- 方法(L₁)- 实验设计(L₂)- 结果分析(L₂)” 等层级,既保留语义完整性,又支持不同粒度检索。
2. Auto-Merge 算法:检索时 “智能调粒度”
分块后,Auto-Merge 算法会根据查询需求动态调整检索粒度,平衡语义完整性与 token 预算:
- 核心逻辑:检索时先匹配细粒度块,若满足三个条件则自动合并父块 —— 子块匹配数≥2、子块总长度达标、剩余 token 足够,确保用最少 token 获取完整信息。
- 优势:无需人工设定分块大小,面对 “总结章节”“提取细节” 等不同查询,能自动适配最优粒度,避免信息割裂或冗余。
四、实验验证:分块优化让 RAG 性能显著提升
研究团队在 HiCBench 及多个公开基准上测试,HiChunk 框架表现亮眼:
1. 分块准确性碾压传统方法
在 Qasper、Gov-report 数据集上,HiChunk 的分块点 F₁分数达 0.67-0.99,远超语义分块方法(SC:0.03-0.15)和 LLM 单级分块方法(LC:0.18-0.67),即使在跨领域的 HiCBench 上,也保持 0.31-0.55 的高准确率。
2. RAG 全流程性能提升
- 证据召回率:在 HiCBench 的 T₁任务中,HiChunk(HC200+AM)的证据召回率达 81.03%,高于固定分块(FC200:74.06%)和单级语义分块(LC:75.53%)。
- 生成质量:用 Qwen3-32B 生成回答时,HiChunk 的 Fact-Cov 事实一致性分数达 68.12%、Rouge 分数达 37.29%,均优于传统方法,且在不同 token 预算下(2k-4k)均保持稳定优势。
3. 效率与质量兼顾
HiChunk 的分块速度虽慢于简单语义分块(SC),但远快于 LLM 单级分块(LC)处理 14 万字的 GutenQA 文档仅需 60 秒,而 LC 需 132 秒,兼顾实际应用的时效性需求。
五、总结
HiChunk 研究的核心价值,在于首次将 “文档分块” 从 “被动切割” 升级为 “主动适配” 的智能环节。其提出的 HiCBench 基准,为 RAG 分块研究提供了统一评估标准;而 HiChunk 框架与 Auto-Merge 算法,则为实际应用提供了可落地的优化方案。