爬虫基础

80 阅读2分钟

请求的概念request 我的电脑 百度服务器 这两者中间需要请求说唱之类的信息 检索出来拼装成html 拼装好的html返回给我的电脑叫做响应 响应response.html相应给我的电脑
返回的是 页面结构只是壳子 没有泡沫数据 需要再次请求 请求新的url 执行页面中隐含的脚本 返回数据 第二次返回的把数据和结构结合起来呈现给用户 f12调出检查 network又称抓包工具返回的各种请求图片加载 请求时长 XHR代表的是看一些加载数据的请求 preview预览 页面结构和数据是分开进行加载的 网址页面源代码就像没交的试卷 又是拿不到数据 elements就是老师判过的卷 能拿到参考数据 elements和反映给客户的代码是实时的 删除一种元素对应的也会删除 preserve log保留之前的网络请求内容 一定要打上对勾 http协议两个计算机之间能进行顺畅的沟通而设置的一个协议 超文本传输协议 就是浏览器和服务器之间数据交互遵守的一种协议 请求:流程 1请求行: 请求方式 get/post 请求url地址 协议 2请求头 处理本次请求放一些服务器要使用的附加信息 放一些设备让电脑知道是什么设备 3空白 主要是分割 4请求体 一般放一些请求的参数 主要信息 比如说唱中万妮达酷不酷

状态 1状态行 放协议 状态码 200表示正确状态码 302重定向 404 url是错误的 500服务器崩溃 2响应头反应的客户端的信息 cookie验证消息 解密的key 3空白 分割 4 服务器反映给客户端真实的数据 请求头内最常见的重要内容: user-agent 请求载体的身份标识(用啥发送的请求) referer:防盗链 这次请求是哪个页面来的 反爬会用到 cookie:用户登陆的信息 反爬的toker

响应头里的一些重要内容: cookie 用户登录的信息 发爬的toker 2各种神奇的莫名其妙的字符串 (是为了防止各种攻击和反爬)