爬虫实现简介

119 阅读1分钟

爬虫的流程

1.获取url

2.向url发送请求,并获取响应

3.若从响应中提取url,则继续发送请求获取响应

4.若从响应中提取数据,则将数据进行保存


User Agent

通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。

cookie

Http协议是无状态的,也就是说同一个人对服务器发送了两次请求,服务器没有能力知道这是否来自同一个人,因此就需要cookie来帮助服务器进行标识,因此当我们想要爬取需要登陆的网站时,我们就需要设置相应的Cookie。

host 域名

connection 长连接

Referer 页面跳转

这个页面是从哪里过来的

可用于防盗链


响应状态码

所有的状态码都不可信,一切以是否从抓包中得到的响应中获取到数据为准network中抓包得到的源码才是判断依据,elements中的源码时渲染之后的源码,不能作为判断标准

浏览器请求的过程

浏览器发送请求进行渲染

爬虫只发送请求,不渲染

骨骼文件 html静态文件 document

肌肉文件 js/ajax请求

皮肤文件 css/font/图片

抓包过程:
根据发送请求的流程分别在骨骼、肌肉、皮肤响应中查找数据