获得徽章 0
- 多路召回比关键词检索和向量检索更强,因为它结合多种方法,能找得更准、找得更多、不容易漏掉好内容。
多路召回的知识库准备:
1 数据准备
a 数据源
b 数据获取、解析、清洗
c 文本分块:切片
d 数据入库:关系型数据库
2 建立全文检索引擎(比如基于 BM25 算法)
3 建立向量检索引擎(比如使用 FAISS)
基于多路召回的问答流程(串行多路召回):
1 用户提问
2 召回
a 初筛:全文检索(关键词检索)
b 精排:向量检索
c 融合:将多个通道召回的结果融合。使用简单的算法或重排序模型实现。
3 生成提示词:结合用户提问和召回片段构造提示词
4 调用大模型,获取回答展开赞过评论1 - GPT-4o mini 只有 80 亿参数,GPT-3.5 有 1750 亿参数,但是 4o mini 的质量明显优于 3.5. 原因:
1. 训练方法:采用MoE架构动态激活专家模块,结合知识蒸馏和指令层次训练,提升参数效率与任务精准度。
2. 数据层面:精选多语言及专业领域高质量数据,强化专项能力,减少冗余信息干扰。展开评论点赞 - 评论点赞
- AI 的一个能力是处理解析加工文本数据,对于这类任务,AI 的特点是能更简单的处理很多之前处理不了或很难处理(需要写很多代码)的任务,比如:
- 需要自定义规范和风格的翻译任务
- 识别文本中的一个或多个人物名称
- 自定义排版
- 提炼总结、改写优化赞过评论1