获得徽章 6
- 在过去的一年中,RAG(Retrieval-Augmented Generation)技术发生了巨大的变化,如今的大多数SOTA(State of the Art,最先进)系统都支持以下功能:
多模态文档和响应
根据查询的复杂性将任务路由到不同的LLM(大型语言模型)
多语言请求和响应
通过验证步骤提高准确性并减少幻觉
在生产环境中对系统进行反馈和监控
最近提出了一种巧妙的方法,称为推测性RAG(Speculative RAG)。该框架利用一个较大的通用LM(语言模型)高效地验证由较小的、精炼的专门LM并行生成的多个RAG草稿。
每个草稿都是从不同的检索文档子集中生成的,提供了对证据的多样化视角,同时减少了每个草稿的输入令牌数。
这种方法增强了对每个子集的理解,并减轻了在扩展上下文中可能出现的位置偏差。
他们的方法通过将草稿撰写任务分配给较小的专门LM,然后由较大的通用LM对草稿进行一次性验证,来加速RAG过程。
推测性RAG在提高准确性方面表现出色,提升幅度可达12.97%,同时相比传统RAG系统在PubHealth数据集上的延迟降低了51%。
诸如此类的方法帮助解决了复杂的RAG问题。展开1213
![[谢谢]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_112.2dd347d.png)
![[流泪]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_6.dde0d83.png)
![[吃瓜群众]](http://lf-web-assets.juejin.cn/obj/juejin-web/xitu_juejin_web/img/jj_emoji_10.42a731c.png)