1、RAG是pdf理解低成本落地的实用思路
最近大模型(尤其是能看懂PDF的多模态大模型)进化速度非常之快,基本可以实现「高精度表格、公式、CAD图字符&语义混合识别」,在合同/票据校验/公文等专业领域文档等合规性审核有很大的优势。
但是,问题来了,自己去训练一个多模态大模型,成本是非常高的,而且对技术要求极高
我们开发了一个基于VLM构建的多模态RAG问答系统,采用模块化设计,核心结构如下:
所以从成本和落地效率的角度,检索增强生成(RAG)就是非常“轻量级”+“务实”的方案。
2、企业落地的难点:
当前的多模态识别,核心难点还是在于比较复杂的图片识别(比如包含各种图表的pdf及CAD、复杂架构原型图等),主要有以下几个难点
难点一:无法识别
图表尤其是像CAD工程图,包含各种长宽数据、小字、符号等元素的精准识别,传统OCR是很难去做的,大多数情况咱们在使用的时候还要先写好相关的解析代码(如下)。理解不了,识别不准确,回答当然不行
难点二:复杂检索
当咱们问一个拐了几个弯的复杂问题时,模型需要联系多处细节,如果只是简单的关键词检索,很容易检索到一大堆不相关的信息,在生成答案时就会被干扰
难点三:混合语义识别
尤其是PDF这种包含了文本、图片、表格等等各种信息的文档,如何把不同模态的信息有效地融合、对齐、让模型真正理解文档的语义关系,依然是个挑战
3、解决方案实现-多模态RAG问答系统搭建
这个基于VLM构建的多模态RAG问答系统,已经过企业级真实环境开发验证实现落地的!
核心功能有三:
1、支持在线上传并自动解析多模态PDF及CAD、工程图纸和复杂架构原型图;
2、通过自然语言问答,直接检索图片原型及文档原件,并支持溯源和在线预览;
3、支持实时上传多模态PDF及CAD、工程图纸和复杂架构原型图,并直接对文件内容进行提问,实现智能问答
前后端架构完全开源,提供完整源码及教学文档👉【全栈学习】大模型体系技术社区:kq4b3vgg5b.feishu.cn/wiki/space/…
都是免费开放给大家学习的,需要更多大模型技术内容学习,都收录在咱们社区知识库了哦~欢迎加入