PDFBOX调研

107 阅读1分钟

星期五 晴

工作安排:

对PDFBOX进行调研,银行的pdf数据是图片格式的,现在的操作就是,将大的pdf文件中的图片提取出来,然后保存为图片格式的,需要对时间进行测试。

思路

如果数据是图片类型,可以直接把图片提取出来,然后保存图片就行。

如果不是图片类型,可以将pdf转成图片格式。

因为文件里的内容是图片格式的,所以优先使用第一种。

第一种

他这个是将大的pdf文件,直接存到list,然后遍历每个文件。拆的挺快的。

问题

速度比较慢。具体是和图片的大小有关系

试了一下,基本一张图片需要2s的时间。

思考:

可能的原因:

1.提取图片的速度太慢

2.保存图片的速度太慢

经过测试,最终原因:保存图片的速度太慢

第二种,不提取图片信息,直接将pdf转成png

更慢