一、索引阶段优化
-
数据预处理增强
- 采用LLM清洗低信息密度数据
- 实施分层索引架构(摘要层+细节层)
- 生成假设问答对提升检索对称性
-
分块策略创新
- 动态滑动窗口分块
- 多粒度混合分块(段落/句子级)
- 基于语义的智能切分
二、检索过程优化
-
查询重构技术
- Multi-Query多视角扩展
- HyDE假设文档嵌入
- 问题分解(Decomposition)
-
混合检索策略
- 结合稠密/稀疏向量检索
- 知识图谱辅助检索
- 元数据过滤增强
三、生成阶段优化
-
上下文处理
- 重排序算法优化
- 动态上下文压缩
- Self-RAG自反思机制
-
模型适配
- 领域适配微调
- 量化感知训练
- 长上下文窗口优化
四、系统级创新
- CRAG动态路由:自动切换知识库/网络检索
- 多模态扩展:视觉-语言联合嵌入
- 医疗专用方案:病理数据强化迭代