背景
文档中心需要将现有 web 内容转化为 PDF 文档 供用户下载。 如:
一个模块下有很多页面,需要将这些页面合并到一个PDF文件中输出。
技术方案
输出目录树
- 收集目录产出 目录树文件。
处理文档将内容输出到一个HTML文件中
- 按目录树收集 HTML 文件。
- 按目录树处理 文档内的 H1 - H5 的内容。
- 处理 HTML 输出到 output.html中, 删除头尾部分。
将 HTML 转化为 PDF
- 将合并后的 HTML 转化为 PDF 文档。
- 为 PDF 添加封面
- 为 PDF 添加目录
- 为 PDF 添加页码