做爬虫ICLD的migration的时候,发现ICLD的官网,显示各种route信息是不是显示在html上,而是一张PDF。
所以问题就转变为,解析PDF为HTML再进行以往的分析操作。
首先通过绕过ssl认证去获取网页上的信息,转成inputStream写进临时文件里面。
在通过PDDocument来获取里面的PDF,用PDFTextStripper进行操作,获取里面的各种text。
然后人为的加入一些HTML标签,让他跟之前爬回来的HTML字段没有什么区别,就可以跟之前一样进行操作了。