HTTP 基本概念
HTTP 常见的状态码有哪些?
1xx 类状态码属于提示信息,是协议处理中的一种中间状态,实际用到的比较少。
2xx 类状态码表示服务器成功处理了客户端的请求,也是我们最愿意看到的状态。
- 「200 OK」是最常见的成功状态码,表示一切正常。如果是非
HEAD请求,服务器返回的响应头都会有 body 数据。 - 「204 No Content」也是常见的成功状态码,与 200 OK 基本相同,但响应头没有 body 数据。
- 「206 Partial Content」是应用于 HTTP 分块下载或断点续传,表示响应返回的 body 数据并不是资源的全部,而是其中的一部分,也是服务器处理成功的状态。
3xx 类状态码表示客户端请求的资源发生了变动,需要客户端用新的 URL 重新发送请求获取资源,也就是重定向。
- 「301 Moved Permanently」表示永久重定向,说明请求的资源已经不存在了,需改用新的 URL 再次访问。
- 「302 Found」表示临时重定向,说明请求的资源还在,但暂时需要用另一个 URL 来访问。
301 和 302 都会在响应头里使用字段 Location,指明后续要跳转的 URL,浏览器会自动重定向新的 URL。
- 「304 Not Modified」不具有跳转的含义,表示资源未修改,重定向已存在的缓冲文件,也称缓存重定向,也就是告诉客户端可以继续使用缓存资源,用于缓存控制。
4xx 类状态码表示客户端发送的报文有误,服务器无法处理,也就是错误码的含义。
- 「400 Bad Request」表示客户端请求的报文有错误,但只是个笼统的错误。
- 「403 Forbidden」表示服务器禁止访问资源,并不是客户端的请求出错。
- 「404 Not Found」表示请求的资源在服务器上不存在或未找到,所以无法提供给客户端。
5xx 类状态码表示客户端请求报文正确,但是服务器处理时内部发生了错误,属于服务器端的错误码。
- 「500 Internal Server Error」与 400 类型,是个笼统通用的错误码,服务器发生了什么错误,我们并不知道。
- 「501 Not Implemented」表示客户端请求的功能还不支持,类似“即将开业,敬请期待”的意思。
- 「502 Bad Gateway」通常是服务器作为网关或代理时返回的错误码,表示服务器自身工作正常,访问后端服务器发生了错误。
- 「503 Service Unavailable」表示服务器当前很忙,暂时无法响应客户端,类似“网络服务正忙,请稍后重试”的意思。
HTTP 常见字段有哪些?
Host 字段
客户端发送请求时,用来指定服务器的域名。有了 Host 字段,就可以将请求发往「同一台」服务器上的不同网站。
Content-Length 字段
服务器在返回数据时,会有 Content-Length 字段,表明本次回应的数据长度。固定长度防止粘包。
Connection 字段
Connection 字段
Connection 字段最常用于客户端要求服务器使用「HTTP 长连接」机制,以便其他请求复用。(长连接,长期保持连接状态)
Content-Type 字段
Content-Type 字段用于服务器回应时,告诉客户端,本次数据是什么格式。
Content-Encoding 字段
Content-Encoding 字段说明数据的压缩方法。表示服务器返回的数据使用了什么压缩格式
GET 与 POST
GET 的语义是从服务器获取指定的资源,只读的,安全(不改变服务器资源)、幂等(多次操作结果相等)、可被缓存的(如果根据RFC规定操作)。
POST 的语义是根据请求负荷(带报文body)对指定的资源做出处理,例如提交修改,留言不安全,不幂等,(大部分实现)不可缓存。
Get和Post请求的区别
get把参数包含在url(<2048字符)中,post是把参数放到request body中
post相对于get更安全,post发送的数据更大,get有url的长度限制
post更发送更多的数据类型,get只能发送ASCII字符
在restful中,get一般用户查询搜索数据,post一般用户添加或者修改数据
get和post请求头的区别:
-
请求方法:
- GET 请求在第一行使用
GET。 - POST 请求在第一行使用
POST。
- GET 请求在第一行使用
-
请求体:
- GET 请求没有请求体,参数在URL中传递。
- POST 请求有请求体,参数在请求体中传递。
-
Content-Type:
- GET 请求通常没有
Content-Type头部字段。 - POST 请求必须有
Content-Type头部字段,指定请求体的数据类型(如application/x-www-form-urlencoded、multipart/form-data、application/json)。
- GET 请求通常没有
-
Content-Length:
- GET 请求通常没有
Content-Length头部字段。 - POST 请求需要
Content-Length头部字段,指定请求体的长度。
- GET 请求通常没有
HTTP 缓存技术
HTTP 缓存有哪些实现方式?
重复请求结果相同时使用缓存,有强制缓存和协商缓存
什么是强制缓存?
强缓存指的是只要浏览器判断缓存没有过期,则直接使用浏览器的本地缓存,决定是否使用缓存的主动性在于浏览器这边。
强缓存是利用- Cache-Control, 是一个相对时间(优先级高);
Expires,是一个绝对时间;,第一次请求时在Response头部生成Cache-Control,后续根据缓存是否过期决定直接读缓存还是重新请求。
什么是协商缓存?
响应码是 304,通过服务端告知客户端是否可以使用缓存。
1、基于响应头Last-Modified(资源最后修改时间)和请求头If-Modified-Since两个字段判断,判断资源是否修改过,未改则304读缓存,改了则200OK返回新资源。
2、基于请求头If-None-Match和响应头ETag字段
- 响应头部中
Etag:唯一标识响应资源,优先级高,精确判断; - 请求头部中的
If-None-Match:当资源过期时,浏览器发现响应头里有 Etag,则再次向服务器发起请求时,会将请求头 If-None-Match 值设置为 Etag 的值。服务器收到请求后进行比对,如果资源没有变化返回 304,如果资源变化了返回 200。
注意,协商缓存这两个字段都需要配合强制缓存中 Cache-Control 字段来使用,只有在未能命中强制缓存的时候,才能发起带有协商缓存字段的请求。
HTTP 特性
HTTP/1.1 的优点有哪些?
1. 简单
HTTP 基本的报文格式就是 header + body,头部信息也是 key-value 简单文本的形式,易于理解
2. 灵活和易于扩展
HTTP 协议里的各类请求方法、URI/URL、状态码、头字段等每个组成要求都没有被固定死,都允许开发人员自定义和扩充。
3. 应用广泛和跨平台
HTTP/1.1 的缺点有哪些?
HTTP 协议里有优缺点一体的双刃剑,分别是「无状态(记忆)、明文传输」,同时还有一大缺点「不安全」。
HTTP/1.1 的性能如何?
1. 长连接:减少了 TCP 连接的重复建立和断开所造成的额外开销
2. 管道网络传输:一个请求出去,另一个请求就可以发送(1.1基本没有)
3. 队头阻塞:请求未被响应,后续请求无法发送
HTTP 与 HTTPS
HTTP 与 HTTPS 有哪些区别?
HTTPS 则解决 HTTP 不安全的缺陷,在 TCP 和 HTTP 网络层之间加入了 SSL/TLS 安全协议(TCP握手后),使得报文能够加密传输。HTTP 默认端口号是 80,HTTPS 默认端口号是 443。 HTTPS 协议需要向 CA(证书权威机构)申请数字证书,来保证服务器的身份是可信的。
HTTPS 解决了 HTTP 的哪些问题?
HTTP 由于是明文传输,所以安全上存在以下三个风险:窃听,篡改,冒充,针对以上作了信息加密,校验机制,身份证书,具体来说:
- 混合加密(对称和非对称加密)的方式实现信息的机密性,解决了窃听的风险。
- 摘要算法的方式来实现完整性,它能够为数据生成独一无二的「指纹」,指纹用于校验数据的完整性,解决了篡改的风险。
- 将服务器公钥放入到数字证书中,解决了冒充的风险。
1. 混合加密
- 对称加密只使用一个密钥,运算速度快,密钥必须保密,无法做到安全的密钥交换。
- 非对称加密使用两个密钥:公钥和私钥,公钥可以任意分发而私钥保密,解决了密钥交换问题但速度慢。
2. 摘要算法 + 数字签名
用摘要算法(哈希函数)来计算出内容的哈希值---缺少对客户端收到的消息是否来源于服务端的证明,可能被替换---非对称加密算法:双向公私钥加解密--私钥对内容的哈希加密加密,公钥解密,即数字签名算法
3. 数字证书
还缺少身份验证的环节,万一公钥是被伪造的呢?---权威的机构: CA (数字证书认证机构)颁发的公钥
HTTPS 是如何建立连接的?其间交互了什么?
SSL/TLS 协议基本流程:
- 客户端向服务器索要并验证服务器的公钥。
- 双方协商生产「会话秘钥」。
- 双方采用「会话秘钥」进行加密通信。
前两步也就是 SSL/TLS 的建立过程,也就是 TLS 握手阶段。
TLS 的「握手阶段」涉及四次通信,使用不同的密钥交换算法,TLS 握手流程也会不一样的,现在常用的密钥交换算法有两种:RSA 算法 和 **ECDHE 算法 **
客户端校验数字证书的流程是怎样的?
CA 签发证书--客户端校验服务端的数字证书--(还存在一个证书信任链的问题,因为我们向 CA 申请的证书一般不是根证书签发的,而是由中间证书签发的)--层层担保信任链。
Root CA不直接颁发这是为了确保根证书的绝对安全性,将根证书隔离地越严格越好,不然根证书如果失守了,那么整个信任链都会有问题。
HTTPS 的应用数据是如何保证完整性的?
TLS 在实现上分为握手协议和记录协议两层: TLS 四次握手--协商加密算法和生成对称密钥保护HTTP数据 记录协议分片--压缩--计算MAC值--分组加密HTTP数据
HTTPS 一定安全可靠吗?
HTTPS 协议本身到目前为止还是没有任何漏洞的,即使你成功进行中间人攻击,本质上是利用了客户端的漏洞(用户点击继续访问或者被恶意导入伪造的根证书),并不是 HTTPS 不够安全。
为什么抓包工具能截取 HTTPS 数据?
抓包工具能够抓包的关键是客户端会往系统受信任的根证书列表中导入抓包工具生成的证书,而这个证书会被浏览器信任,也就是抓包工具给自己创建了一个认证中心 CA,客户端拿着中间人签发的证书去中间人自己的 CA 去认证,当然认为这个证书是有效的。
如何避免被中间人抓取数据?
1.不要点击任何证书非法的网站,HTTPS 数据就不会被中间人截取到了;
2.HTTPS 双向认证;不仅客户端会验证服务端的身份,而且服务端也会验证客户端的身份。
HTTP/1.1、HTTP/2、HTTP/3 演变
HTTP/1.1 相比 HTTP/1.0 提高了什么性能?
1.长连接改善了 HTTP/1.0 短连接造成的性能开销; 2.支持管道(pipeline)网络传输,解决请求队头阻塞,没有解决响应队头阻塞;
HTTP/1.1的局限
1.请求 / 响应头部(Header)未经压缩就发送 2.互相发送相同的首部造成的浪费较多 3.服务器是按请求的顺序响应的,如果服务器响应慢,会招致客户端一直请求不到数据,也就是队头阻塞; 4.没有请求优先级控制; 5.请求只能从客户端开始,服务器只能被动响应。
HTTP/2 做了什么优化?
1.HTTP/2 协议是基于 HTTPS 的,更安全。
2.HPACK 算法(在客户端和服务器同时维护一张头信息表):HTTP/2 会压缩头,消除多个请求的重复的部分。
3.二进制格式:不在以纯文本发送,头信息和数据体都是二进制,并且统称为帧(frame):头信息帧(Headers Frame)和数据帧(Data Frame),计算机友好,增加了数据传输的效率。
4.并发传输
针对不同的 HTTP 请求用独一无二的 Stream ID 来区分,接收端可以通过 Stream ID 有序组装成 HTTP 消息,不同 Stream 的帧是可以乱序发送的,因此可以并发不同的 Stream ,也就是 HTTP/2 可以并行交错地发送请求和响应。
5.服务器推送
服务端不再是被动地响应,可以主动向客户端发送消息。双方都可以建立 Stream,通过奇偶区别。
HTTP/2 有什么缺陷?
HTTP/2 是基于 TCP 协议来传输数据的,TCP 是字节流协议,TCP 层必须保证收到的字节数据是完整且连续的,这样内核才会将缓冲区里的数据返回给 HTTP 应用,那么当「前 1 个字节数据」没有到达时(丢包),后收到的字节数据只能存放在内核缓冲区里,只有等到这 1 个字节数据到达时,HTTP/2 应用层才能从内核中拿到数据,这就是 HTTP/2 队头阻塞问题。
HTTP/3 做了哪些优化?
HTTP/2 队头阻塞的问题是因为 TCP,所以 HTTP/3 把 HTTP 下层的 TCP 协议改成了 UDP! 基于 UDP 的 QUIC 协议 可以实现类似 TCP 的可靠性传输。QUIC 有以下 3 个特点。
- 无队头阻塞:多个流独立,丢包不会相互影响
- 更快的连接建立:QUIC 三次握手确认双方ID替代TCP+TLS的3+3次
- 连接迁移:基于 TCP 传输协议的 HTTP 协议,由于是通过四元组(源 IP、源端口、目的 IP、目的端口)确定一条 TCP 连接--QUIC不使用四元组而通过连接ID标记两个端口,IP切换后重连速度快。
- QUIC 是一个在 UDP 之上的伪TCP + TLS + HTTP/2 的多路复用的协议。 QUIC 是新协议,对于很多网络设备,根本不知道什么是 QUIC,只会当做 UDP,这样会出现新的问题,因为有的网络设备是会丢掉 UDP 包的,而 QUIC 是基于 UDP 实现的,那么如果网络设备无法识别这个是 QUIC 包,那么就会当作 UDP包,然后被丢弃。