python爬虫小实战

我们直入主题，讲一讲这次爬取我们学校教务处网站的经历，因为某些原因，这里就不开放源码了。

1.查看网站源码

打开教务处网站，通过F12查看源代码，发现密码通过sha1加密算法进行处理，但函数中存在一个随机的字符串（毫无规律），便想到办法，我先通过get方式获取到网站的内容，把该加密字符串拿下来，在本地进行加密以后再进行登录。

2.设置cookies

获取到第一步加密的数据以后，再打开F12监控登陆过程，看到Form Data处，将相应的数据通过dict字典设置好，然后通过post方式访问网址发现返回来的页面提示密码错误。问了一下大哥才知道要设置cookies，不然两次访问的页面是不同的页面，前面抓取的随机字符串也会修改。
所以这里在第一步get方式中不光要获取加密字符串还要获取cookies，第二次进行post方式访问网址时，参数中设置好cookies，这样两次的访问可视为同一次访问(描述可能不太对，但这样理解)。

3.爬取相应的数据

上次的post方式访问页面能成功以后，想要的数据还不在这个页面中，但是本次post方式访问页面主要目的就是为了登陆，这样前面获取的cookies就暂时能够通过它访问登陆后才能访问的页面。打开F12查看自己需要的数据在哪个页面，监控需要请求的方式和Form Data 和 Query String Parameters。

总结

我觉得要用爬虫还是得对网站源码有一定的了解，得花功夫去看网站源码并且监控数据的请求方式，当然你如果不会HTML和CSS当我没说，因为你根本看不懂，JS也是需要一定基础。
遇到问题多百度，实在不行了再找朋友解答一下。以上就是全部内容了，谢谢！

python爬虫总结

python爬虫小实战

1.查看网站源码

2.设置cookies

3.爬取相应的数据

总结