
获得徽章 27
旅行者1号技术团队
- 在做 RAG 的时候,对 PDF 文件的预处理是一个难题,主要难点在于 PDF 如果包含大量的图表、表格、饼图,或者布局很复杂,那么在做检索的时候可能效果不会太好,如果无法很好的检索,最终也会影响生成的结果。
作者提出的方案则是另辟蹊径,绕过 OCR,借助多模态,将 PDF 的每一页截图后,直接对图片做 Embedding,这样借助多模态,后续用文字检索时,基于向量检索也能检索出图片中的内容。
但这样做也有缺点,就是是以页为单位做 Embedding,对于跨页的数据,可能检索起来效果要差一些。另外还跟所用到的多模态的大语言模型能力有很大关系,如果模型本身对图片识别能力较弱,也会影响检索的效果。
我不觉得这种方案能代替传统基于文字的 RAG 方案,但是作为一个针对图表、表格优化的补充辅助方案还是不错的。
如果你想了解这个方案的更多详情,可以参考这篇文章:《使用视觉语言模型进行 PDF 检索》blog.vespa.ai
展开评论1
个人成就
旅行者1号技术团队