爬取需要登录的网站不知道算不算违规，不过还是记录一下，属于比较有用的小技巧。有的网站需要登录，才能查看其里面的东西。有时

　　不知道算不算违规，不过还是记录一下，属于比较有用的小技巧。有的网站需要登录，才能查看其里面的东西。有时候如果只是文字的东西，想要分享出去。比如说极客时间的专栏。

　　那就爬取内容保存下来吧。

　　方法

　　1 留意自己想要爬的内容，如果可以提前获取其内容链接，并且链接是固定的，那么在前端控制台通过js先获取链接。将程序copy到控制台执行

　　2 写Java程序，做好准备工作，先添加依赖

　　3 规划Java程序，需要有个登录的程序，以及检查是否登录的

　　4 爬取数据的部分

　　5 主程序

　　6 效果

　　最后

　　这里就是提供一个思路，具体怎么拿数据到时候根据自己的需求来，不过像爬数据是一个很不错的用来练习多线程的方式。

　　公开的网站，用多线程爬取数据

　　需要登录的网站，注意控制频率，登录线程与爬取线程的协调

　　仅做抛转引玉，扩展一下：

　　有的时候可能爬取下来的内容还是被限制了一次，html中的内容依赖js，如果有文字的话，可以试着使用pandoc转化html文件为其它格式的。

　　pandoc -s xxx.html -o test.text