写在前面:本文的作者是一个没有开发经验的产品/测试,如果你是开发大神,可以忽略本文脚本实现功能:将 PDF 里面的文字提取出来。脚本实现步骤:先将 PDF 每页左右拆分成一页,然后再批量调用文字识别输出到文件中为什么分享:wps 要钱,其他的工具不支持将一页 pdf 拆分成两页(也可能是我没搜到把)还是这个项目的需求:我用Trae两周完成了一个外包项目客户需要提取几十本书里面的英文,作为英语作业批改接口的参考文本,书本内容都是 pdf,而且是下图所示格式:第一个搞,先问问 Trae:
聊了半天发现都不行,直到:
说明一下为什么选方案二,因为我的 pdf 是扫描的,所以没办法选择方案一接下来就是朴实无华的实现环节
继续实现图片批量识别成文字
以下是我实现的具体功能介绍,Trae 生成的:
我把代码打包了,如果有兴趣看看或者改的,公众号搜“汤包 AI 编程吧就”后台回复 干就完了 就可以下载了如果还有帮助,希望点个免费的赞~谢谢各位大佬爷