爬虫实现简介

2024-10-16 119 阅读1分钟

爬虫的流程

1.获取url

2.向url发送请求，并获取响应

3.若从响应中提取url，则继续发送请求获取响应

4.若从响应中提取数据，则将数据进行保存

User Agent

通过设置User Agent的来达到隐藏身份的目的，User Agent的中文名为用户代理，简称UA。

cookie

Http协议是无状态的，也就是说同一个人对服务器发送了两次请求，服务器没有能力知道这是否来自同一个人，因此就需要cookie来帮助服务器进行标识，因此当我们想要爬取需要登陆的网站时，我们就需要设置相应的Cookie。

host 域名

connection 长连接

Referer 页面跳转

这个页面是从哪里过来的

可用于防盗链

响应状态码

所有的状态码都不可信，一切以是否从抓包中得到的响应中获取到数据为准network中抓包得到的源码才是判断依据，elements中的源码时渲染之后的源码，不能作为判断标准

浏览器请求的过程

浏览器发送请求进行渲染

爬虫只发送请求，不渲染

骨骼文件 html静态文件 document

肌肉文件 js/ajax请求

皮肤文件 css/font/图片

抓包过程：

根据发送请求的流程分别在骨骼、肌肉、皮肤响应中查找数据