关于python爬虫中的一些问题--4 爬取的页面内容为空

473 阅读1分钟

为何爬取的页面数据为空

最大的原因可能在于网站做了反爬虫的措施,可能有如下形式:

1、防盗链 网站判断请求头 headers中的referer

2、用户是否使用浏览器访问 网站判断请求头 headers中的user-agant

3、用户是否处于登录验证状态 网站判断请求头 headers中的cookie

其实这一切的关键在于请求头headers中的参数是否符合该网站的要求。一般在爬虫程序中,设想完备的headers会减少许多不必要的麻烦。

但即使解决header的问题,并不是解决了所有爬虫无效的情况。在前后端分离开发的时代,程序的网站的反爬虫机制由前后端共同约定完成,这就需要更多的分析和解析才能做到完美分析。