数据录入功能----具体实现部分

尼莫点里的你

2024-07-25 128 阅读2分钟

这是在数据备份功能写完之后的又一个新功能。在交付了一个多月之后（修了一个月bug），开始开发的东西。

概况

文件类型：一个人：然后不同的档案信息，每份档案信息又有很多页。

源文件是一份100~1000页的大型PDF文件，

我们直接将文件里面的图片提取出来（因为pdf里面的数据就是图片数据），一张一张的存储到一个临时目录（以合同人的名字进行命名的目录）
使用ocr技术识别图片里的文字，然后利用weka数据处理对数据进行分类，（因为在银行的业务中，1000张，有基本700张都是共同的，里面的内容有大致相同的地方，比如肯定有身份证信息，户口信息，个人信息，信贷证明，贷款须知，承诺书之类的，这些文件大部分内容页数也是相同的），我们只要能把这些分出来，按照类别保存成pdf文件
然后调用写好的接口进行个人数据填写，档案关联等等操作，这样一天就能帮助银行录入人员节省时间。（这个信息主要就是个人信息，然后关联的档案有哪些）

之前的做法：因为扫描文件是一页一页扫的，所以人工将扫出来的文件分类并整合到一个pdf文件中，并进行命名操作（费时1），然后使用系统，进行档案录入操作，（费时2）

1.上传文件

点击上传，前端给后端传过来路径，后端根据路径将pdf文件进行转换，转换成图片之后保存到指定路径（这个路径是一条临时路径）

2.对图片文字进行识别，并保存文字

使用ocr技术，对文字进行识别，并保存

3.使用weka根据输入的关键字对文本进行分类

使用weka对数据库数据进行处理，根据关键字进行比较，weka是你可以自己设置关键字，然后可以进行匹配，一般是有三个相同的就进行分类。

4.进行再次分类

为了防止分错，提供了前端页面，可以查看分类结果，未分类，用户可以对分类进行修改，增加新的分类，将图片移动到另一个分类等等。

4.动态建表

然后就是根据个人信息动态建表，然后关联文件信息。（关联的是文件的路径和名字）