星期五 晴
工作安排:
对PDFBOX进行调研,银行的pdf数据是图片格式的,现在的操作就是,将大的pdf文件中的图片提取出来,然后保存为图片格式的,需要对时间进行测试。
思路
如果数据是图片类型,可以直接把图片提取出来,然后保存图片就行。
如果不是图片类型,可以将pdf转成图片格式。
因为文件里的内容是图片格式的,所以优先使用第一种。
第一种
他这个是将大的pdf文件,直接存到list,然后遍历每个文件。拆的挺快的。
问题
速度比较慢。具体是和图片的大小有关系
试了一下,基本一张图片需要2s的时间。
思考:
可能的原因:
1.提取图片的速度太慢
2.保存图片的速度太慢
经过测试,最终原因:保存图片的速度太慢
第二种,不提取图片信息,直接将pdf转成png
更慢