解决 RAG 文档分块痛点，HiChunk 框架让检索质量大幅提升！解决 RAG 文档分块痛点，HiChunk 框架让检

解决 RAG 文档分块痛点，HiChunk 框架让检索质量大幅提升！

在大模型时代，检索增强生成（RAG）已成为解决模型幻觉、补充实时与专业知识的核心技术。但RAG 系统中 “文档分块” 这一关键环节，长期缺乏有效的评估工具和优化方案，严重影响检索与生成质量。

近日，腾讯优图实验室发表的 HiChunk 相关研究，不仅提出了首个针对性评估基准 HiCBench，还设计出分层分块框架与自动合并检索算法，为 RAG 文档分块难题提供了完整解决方案。

文档分块是 RAG 的基础步骤，它将长文档切割成可检索的片段，直接决定后续检索准确性与生成质量。但长期以来，这一环节存在两大核心问题：

评估工具缺失：现有 RAG 基准（如 Qasper、GutenQA）普遍存在 “证据稀疏” 问题，单个查询仅关联文档中 1-2 个句子。但实际用户需求（如总结、枚举）常需 “证据密集型” 处理，现有基准无法有效衡量分块方法优劣。
分块方法局限：传统分块要么采用固定长度（如每 200 词一块），易割裂语义；要么仅支持单一层级分块，无法适配不同语义粒度的查询需求，导致检索时要么信息不全、要么冗余过多。

为解决评估难题，研究团队构建了HiCBench 基准，核心包含三大组件：

人工标注分层分块点：基于 OHRBench 文档，手动标注多层级分块边界（如章节、段落），可直接衡量分块准确性。
证据密集型 QA 对：通过 LLM 生成并筛选两类 QA 任务 —— 单块证据密集型（T₁）和多块证据密集型（T₂），确保每个查询需完整关联语义块才能回答。
精准证据来源：为每个 QA 对标注明确证据句子，排除无效样本，保证评估可靠性。

对比现有基准，HiCBench 的优势一目了然：其 QA 对的平均证据长度达 560 词、包含 20 个句子，远高于传统基准的 36-239 词，能更真实地测试分块方法在实际场景的表现。

针对分块方法局限，研究团队提出HiChunk 分层分块框架，结合Auto-Merge 自动合并检索算法，形成 “分块 - 检索” 全流程优化方案。

HiChunk 通过微调后的 LLM（基于 Qwen3-4B），将文档转化为多层级结构：

例如，一篇技术文档可被分为 “摘要（L₁）- 方法（L₁）- 实验设计（L₂）- 结果分析（L₂）” 等层级，既保留语义完整性，又支持不同粒度检索。

分块后，Auto-Merge 算法会根据查询需求动态调整检索粒度，平衡语义完整性与 token 预算：

核心逻辑：检索时先匹配细粒度块，若满足三个条件则自动合并父块 —— 子块匹配数≥2、子块总长度达标、剩余 token 足够，确保用最少 token 获取完整信息。
优势：无需人工设定分块大小，面对 “总结章节”“提取细节” 等不同查询，能自动适配最优粒度，避免信息割裂或冗余。

研究团队在 HiCBench 及多个公开基准上测试，HiChunk 框架表现亮眼：

在 Qasper、Gov-report 数据集上，HiChunk 的分块点 F₁分数达 0.67-0.99，远超语义分块方法（SC：0.03-0.15）和 LLM 单级分块方法（LC：0.18-0.67），即使在跨领域的 HiCBench 上，也保持 0.31-0.55 的高准确率。

证据召回率：在 HiCBench 的 T₁任务中，HiChunk（HC200+AM）的证据召回率达 81.03%，高于固定分块（FC200：74.06%）和单级语义分块（LC：75.53%）。
生成质量：用 Qwen3-32B 生成回答时，HiChunk 的 Fact-Cov 事实一致性分数达 68.12%、Rouge 分数达 37.29%，均优于传统方法，且在不同 token 预算下（2k-4k）均保持稳定优势。

HiChunk 的分块速度虽慢于简单语义分块（SC），但远快于 LLM 单级分块（LC）处理 14 万字的 GutenQA 文档仅需 60 秒，而 LC 需 132 秒，兼顾实际应用的时效性需求。

HiChunk 研究的核心价值，在于首次将 “文档分块” 从 “被动切割” 升级为 “主动适配” 的智能环节。其提出的 HiCBench 基准，为 RAG 分块研究提供了统一评估标准；而 HiChunk 框架与 Auto-Merge 算法，则为实际应用提供了可落地的优化方案。