为何爬取的页面数据为空
最大的原因可能在于网站做了反爬虫的措施,可能有如下形式:
1、防盗链 网站判断请求头 headers中的referer
2、用户是否使用浏览器访问 网站判断请求头 headers中的user-agant
3、用户是否处于登录验证状态 网站判断请求头 headers中的cookie
其实这一切的关键在于请求头headers中的参数是否符合该网站的要求。一般在爬虫程序中,设想完备的headers会减少许多不必要的麻烦。
但即使解决header的问题,并不是解决了所有爬虫无效的情况。在前后端分离开发的时代,程序的网站的反爬虫机制由前后端共同约定完成,这就需要更多的分析和解析才能做到完美分析。