爬取需要登录的网站

334 阅读1分钟

  不知道算不算违规,不过还是记录一下,属于比较有用的小技巧。有的网站需要登录,才能查看其里面的东西。有时候如果只是文字的东西,想要分享出去。比如说极客时间的专栏。

  那就爬取内容保存下来吧。

  方法

  1 留意自己想要爬的内容,如果可以提前获取其内容链接,并且链接是固定的,那么在前端控制台通过js先获取链接。将程序copy到控制台执行

  2 写Java程序,做好准备工作,先添加依赖

  

  3 规划Java程序,需要有个登录的程序,以及检查是否登录的

  4 爬取数据的部分

  5 主程序

  6 效果

  

image-20190429160403540


  最后

  这里就是提供一个思路,具体怎么拿数据到时候根据自己的需求来,不过像爬数据是一个很不错的用来练习多线程的方式。

  公开的网站,用多线程爬取数据

  需要登录的网站,注意控制频率,登录线程与爬取线程的协调

  仅做抛转引玉,扩展一下:

  有的时候可能爬取下来的内容还是被限制了一次,html中的内容依赖js,如果有文字的话,可以试着使用pandoc转化html文件为其它格式的。

  pandoc -s xxx.html -o test.text