爬虫的流程
1.获取url
2.向url发送请求,并获取响应
3.若从响应中提取url,则继续发送请求获取响应
4.若从响应中提取数据,则将数据进行保存
User Agent
通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。
cookie
Http协议是无状态的,也就是说同一个人对服务器发送了两次请求,服务器没有能力知道这是否来自同一个人,因此就需要cookie来帮助服务器进行标识,因此当我们想要爬取需要登陆的网站时,我们就需要设置相应的Cookie。
host 域名
connection 长连接
Referer 页面跳转
这个页面是从哪里过来的
可用于防盗链
响应状态码
所有的状态码都不可信,一切以是否从抓包中得到的响应中获取到数据为准network中抓包得到的源码才是判断依据,elements中的源码时渲染之后的源码,不能作为判断标准
浏览器请求的过程
浏览器发送请求进行渲染
爬虫只发送请求,不渲染
骨骼文件 html静态文件 document
肌肉文件 js/ajax请求
皮肤文件 css/font/图片