氢贝功能Upgrade-图转xlsx

379 阅读1分钟

最近经常在网上浏览一些文章,需要引用一下里面的表格(excel文档, .xlsx等文件)或者数据,想要“借鉴”一下,但万恶的网站开发者们绞尽脑汁让你不付钱就是没法痛快的下载,乖乖交钱吗?

Don’t even think about it 🍌

资深技术码农就这样作罢?当然不会,嘿嘿…

说干就干,在氢贝工具箱上增加一个image2xlsx的功能,尝试用机器识别的方式,把截图、图片等形式的表格自动提取成xlsx信息,界面长这个样子。

image.png

一切就绪,来个栗子尝尝。 随便百度一个表格图,原图长这个样子:

image.png

选择此表格图后立即开始处理工作,耐心等一会……东西出来了~

image.png

处理完成了,打开文件所在目录,就会看到文件:

image.png

信息基本全部提取完成(注意单元格合并也正确):

image.png

目前基础功能基本跑通,大部分情况下表格信息可以绝大部分正确提取。遗留问题与下一次的更新点: 0 该功能还属于实验室性质尝鲜功能。 1 需要优化表格的识别,目前对于一些分辨率不高、间隙很小、彩色单元格的表格处理,识别正确率需要进一步提升(优化训练 or 替换其他模型)。 2 生成的xlsx需要自动调整一下格式,比如自动宽度,表格线等,会更好看一些。 3 速度有点慢,需要money购买更好的GPU服务器……

这一期更新就到这里了,大家有兴趣的可以玩玩,点击这里去围观吧。