python爬虫总结

228 阅读2分钟

python爬虫小实战

我们直入主题,讲一讲这次爬取我们学校教务处网站的经历,因为某些原因,这里就不开放源码了。

1.查看网站源码

打开教务处网站,通过F12查看源代码,发现密码通过sha1加密算法进行处理,但函数中存在一个随机的字符串(毫无规律),便想到办法,我先通过get方式获取到网站的内容,把该加密字符串拿下来,在本地进行加密以后再进行登录。

2.设置cookies

获取到第一步加密的数据以后,再打开F12监控登陆过程,看到Form Data处,将相应的数据通过dict字典设置好,然后通过post方式访问网址发现返回来的页面提示密码错误。问了一下大哥才知道要设置cookies,不然两次访问的页面是不同的页面,前面抓取的随机字符串也会修改。
所以这里在第一步get方式中不光要获取加密字符串还要获取cookies,第二次进行post方式访问网址时,参数中设置好cookies,这样两次的访问可视为同一次访问(描述可能不太对,但这样理解)。

3.爬取相应的数据

上次的post方式访问页面能成功以后,想要的数据还不在这个页面中,但是本次post方式访问页面主要目的就是为了登陆,这样前面获取的cookies就暂时能够通过它访问登陆后才能访问的页面。打开F12查看自己需要的数据在哪个页面,监控需要请求的方式和Form Data 和 Query String Parameters。

总结

我觉得要用爬虫还是得对网站源码有一定的了解,得花功夫去看网站源码并且监控数据的请求方式,当然你如果不会HTML和CSS当我没说,因为你根本看不懂,JS也是需要一定基础。
遇到问题多百度,实在不行了再找朋友解答一下。 以上就是全部内容了,谢谢!