多路召回在检索效果上优于单一的关键词检索和向量检索。它通过结合多种方法,能实现更精准的查找,获取更多内容,且不易遗漏优质信息。
多路召回的知识库准备
-
数据准备
-
确定数据源;
-
完成数据的获取、解析与清洗;
-
对文本进行分块(切片处理);
-
将处理后的数据存入关系型数据库。
-
-
建立基于 BM25 算法等的全文检索引擎。
-
建立使用 FAISS 等工具的向量检索引擎。
基于多路召回的问答流程(串行多路召回)
-
用户提出问题。
-
召回环节
-
初筛:采用全文检索(关键词检索);
-
精排:运用向量检索;
-
融合:将多个通道召回的结果进行融合,可通过简单算法或重排序模型实现。
-
-
结合用户提问和召回片段构造提示词。
- 调用大模型,获取最终回答。