这是在数据备份功能写完之后的又一个新功能。在交付了一个多月之后(修了一个月bug),开始开发的东西。
概况
文件类型: 一个人: 然后不同的档案信息,每份档案信息又有很多页。
源文件是一份100~1000页的大型PDF文件,
- 我们直接将文件里面的图片提取出来(因为pdf里面的数据就是图片数据),一张一张的存储到一个临时目录(以合同人的名字进行命名的目录)
- 使用ocr技术识别图片里的文字,然后利用weka数据处理对数据进行分类,(因为在银行的业务中,1000张,有基本700张都是共同的,里面的内容有大致相同的地方,比如肯定有身份证信息,户口信息,个人信息,信贷证明,贷款须知,承诺书之类的,这些文件大部分内容页数也是相同的),我们只要能把这些分出来,按照类别保存成pdf文件
- 然后调用写好的接口进行个人数据填写,档案关联等等操作,这样一天就能帮助银行录入人员节省时间。(这个信息主要就是个人信息,然后关联的档案有哪些)
之前的做法:因为扫描文件是一页一页扫的,所以人工将扫出来的文件分类并整合到一个pdf文件中,并进行命名操作(费时1),然后使用系统,进行档案录入操作,(费时2)
1.上传文件
点击上传,前端给后端传过来路径,后端根据路径将pdf文件进行转换,转换成图片之后保存到指定路径 (这个路径是一条临时路径)
2.对图片文字进行识别,并保存文字
使用ocr技术,对文字进行识别,并保存
3.使用weka根据输入的关键字对文本进行分类
使用weka对数据库数据进行处理,根据关键字进行比较,weka是你可以自己设置关键字,然后可以进行匹配,一般是有三个相同的就进行分类。
4.进行再次分类
为了防止分错,提供了前端页面,可以查看分类结果,未分类,用户可以对分类进行修改,增加新的分类,将图片移动到另一个分类等等。
4.动态建表
然后就是根据个人信息动态建表,然后关联文件信息。(关联的是文件的路径和名字)