背景
最近在看《人月神话》这边电子书pdf版。 因为文章很长,目前对于指定的章节很感兴趣, 希望能跳转到指定的章节观看, 但是发现手上这本pdf 没有目录, 无法通过目录来跳转到指定章节, 所以搜索了一下有哪些好的方法能实现生成pdf目录。
解决问题的思路
- 通过书签的功能, 我们可以实现跳转到指定章节
- 书签的内容来自哪里? 怎么制作书签?
- 源pdf 中有目录图片,但是怎么提取目录内容? (通过OCR技术)
- 通过OCR提取的内容是纯文本, 而且格式页不是很准确, 怎么修改格式? (GPT)
- 怎么在pdf中生成书签? (PdgCntEditor 软件)
具体步骤
- pdf 拆分(当pdf较大时, 无法一次性导入pdf 进行OCR, 拆分后可以提取出只包含目录页的pdf):
- pdf 目录页OCR (尝试了多种后, 使用了白描的OCR , 主要是提供了网页版相对方便, 但是也需要进行一次人工校对)
- GPT格式化OCR内容 (只是自己尝试的结果, 仅做参考)
- (不太行)文言一心结果分享
- (还行) 通义千问 (就是不能分享对话结果)
- (相对较好)chatgpt结果分享
- 使用PdgCntEditor软件制作目录(使用说明直接用搜索软件进行搜索就行)
总结
这次尝试只是自己的一次折腾,本来希望的是能达到自动化的程度, 但是尝试下来, OCR的结果还需要人工干预(数据的预处理 + OCR后结果的校对), 然后是GPT目前对于大文本还是有长度限制,需要分批处理。
在整体流程中,人工干预的成本还是相对比较大, 期待后续有更好的技术升级, 能够将这种场景进行自动化生成。