利用OCR + AI 实现生成扫描版pdf 目录

1,132 阅读2分钟

背景

最近在看《人月神话》这边电子书pdf版。 因为文章很长,目前对于指定的章节很感兴趣, 希望能跳转到指定的章节观看, 但是发现手上这本pdf 没有目录, 无法通过目录来跳转到指定章节, 所以搜索了一下有哪些好的方法能实现生成pdf目录。

解决问题的思路

  1. 通过书签的功能, 我们可以实现跳转到指定章节
  2. 书签的内容来自哪里? 怎么制作书签?
  3. 源pdf 中有目录图片,但是怎么提取目录内容? (通过OCR技术)
  4. 通过OCR提取的内容是纯文本, 而且格式页不是很准确, 怎么修改格式? (GPT)
  5. 怎么在pdf中生成书签? (PdgCntEditor 软件)

具体步骤

  • pdf 拆分(当pdf较大时, 无法一次性导入pdf 进行OCR, 拆分后可以提取出只包含目录页的pdf):
  • pdf 目录页OCR (尝试了多种后, 使用了白描的OCR , 主要是提供了网页版相对方便, 但是也需要进行一次人工校对)
  • GPT格式化OCR内容 (只是自己尝试的结果, 仅做参考)
  • 使用PdgCntEditor软件制作目录(使用说明直接用搜索软件进行搜索就行)

总结

这次尝试只是自己的一次折腾,本来希望的是能达到自动化的程度, 但是尝试下来, OCR的结果还需要人工干预(数据的预处理 + OCR后结果的校对), 然后是GPT目前对于大文本还是有长度限制,需要分批处理

在整体流程中,人工干预的成本还是相对比较大, 期待后续有更好的技术升级, 能够将这种场景进行自动化生成。