爬虫学习日记（十二）解析PDF做爬虫ICLD的migration的时候，发现ICLD的官网，显示各种route信息是不是

做爬虫ICLD的migration的时候，发现ICLD的官网，显示各种route信息是不是显示在html上，而是一张PDF。
所以问题就转变为，解析PDF为HTML再进行以往的分析操作。
首先通过绕过ssl认证去获取网页上的信息，转成inputStream写进临时文件里面。
在通过PDDocument来获取里面的PDF，用PDFTextStripper进行操作，获取里面的各种text。
然后人为的加入一些HTML标签，让他跟之前爬回来的HTML字段没有什么区别，就可以跟之前一样进行操作了。