图解HTTP知识梳理

413 阅读36分钟

入行之后的第一篇博客,主要是 HTTP 基础。写博客的原因实际上是想记录自己思考和解决问题的成长过程。很久之后,你再翻看自己以前写的文章,你会感觉得到自己的点滴变化和进步。写博客就像种一颗种子,只要记得浇水、施肥、除草和松土,秋天就会有收获,持续更新😋

1.了解 Web 及网络基础

1.1 TCP/IP 的分层管理

TCP/IP 协议族里重要的一点就是分层。TCP/IP 协议族按层次分别分为以下4层:应用层、传输层、网络层和数据链路层。常使用的网络(包括互联网)是在 TCP/IP 协议族的基础上运作 的。而 HTTP 属于它内部的一个子集

  1. 应用层:TCP/IP 协议族内预存了各类通用的应用服务。比如,FTP 和 DNS服务就是其中两类。HTTP 协议也处于该层
  2. 传输层:传输层对上层应用层,提供处于网络连接中的两台计算机之间的数据传输。在传输层有两个性质不同的协议:TCP 和 UDP。
  3. 网络层(网络互连层):网络层用来处理在网络上流动的数据包。数据包是网络传输的最小数据单位。这一层规定了通过什么样的传输路线到达对方计算器,并把数据包传给对方;和对方计算机之间通过多台计算机或者网络设备进行传输时,网络层起的作用就是在众多的选项内选择一条传输路线。
  4. 链路层(网络接口层):用来处理连接网络的硬件部分。 image.png

利用 TCP/IP 协议族进行网络通信时,会通过分层顺序与对方进行 通信。发送端从应用层往下走,接收端则往应用层往上走。

以 HTTP 举例来说明,一次完整的通信过程:

  1. 首先作为发送端的客户端在应用层 (HTTP 协议)发出一个想看某个 Web 页面的 HTTP 请求。
  2. 为了传输方便,在传输层(TCP 协议)把从应用层处收到的 数据(HTTP 请求报文)进行分割,并在各个报文上打上标记序号及端 口号后转发给网络层。
  3. 在网络层(IP 协议),增加作为通信目的地的 MAC 地址后转发给 链路层。这样一来,发往网络的通信请求就准备齐全了。
  4. 接收端的服务器在链路层接收到数据,按序往上层发送,一直到应用层。当传输到应用层,才能算真正接收到由客户端发送过来的 HTTP 请求。

image.png

发送端在层与层之间传输数据时,每经过一层时必定会被打上一个 该层所属的首部信息。反之,接收端在层与层传输数据时,每经过一层 时会把对应的首部消去。

这种把数据信息包装起来的做法称为封装( encapsulate)。

1.2 三次握手

image.png

为了准确无误地将数据送达目标处,TCP 协议采用了三次握手 (three-way handshaking)策略。用 TCP 协议把数据包送出去后,TCP 不会对传送后的情况置之不理,它一定会向对方确认是否成功送达。握 手过程中使用了 TCP 的标志(flag)——SYN(synchronize)和 ACK ( acknowledgement)。

注意:若在握手过程中某个阶段莫名中断,TCP 协议会再次以相同的顺序 发送相同的数据包。

  1. 发送端首先发送一个带 SYN 标志的数据包给对方。
  2. 接收端收到后,回传一个带有 SYN/ACK 标志的数据包以示传达确认信息。
  3. 最后,发送端再回传一个带 ACK 标志的数据包,代表“握手”结束。

1.3 负责域名解析的 DNS 服务

DNS(Domain Name System)服务是和 HTTP 协议一样位于应用层的协议。它提供域名到 IP 地址之间的解析服务。

image.png

1.4 各种协议和 HTTP 协议的关系

通过下图来了解下 IP 协议、TCP 协议和 DNS 服务在使用 HTTP 协议的通信过程中各自发挥了哪些作用。

image.png

1.5 URI 和 URL

绝对 URI 格式: image.png

使用 http: 或 https: 等协议方案名获取访问资源时要指定协议类型。 不区分字母大小写,最后附一个冒号( :)。也可使用 data:javascript: 这类指定数据或脚本程序的方案名。

  1. 登录信息(认证):指定用户名和密码作为从服务器端获取资源时必要的登录信息(身份认证),此项时可选项
  2. 服务器地址:使用绝对 URI 必须指定待访问的服务器地址。地址可以是类似 hackr.jp 这种 DNS 可解析的名称,或是 192.168.1.1 这类 IPv4 地址 名,还可以是 [0:0:0:0:0:0:0:1] 这样用方括号括起来的 IPv6 地址名。
  3. 服务器端口号:指定服务器连接的网络端口号。若用户省略则自 动使用默认端口号。此项也是可选项
  4. 带层次的文件路径:指定服务器上的文件路径来定位特指的资源。这与 UNIX 系统的文 件目录结构相似。
  5. 查询字符串: 针对已指定的文件路径内的资源,可以使用查询字符串传入任意参数。此项可选
  6. 片段标识符:使用片段标识符通常可标记出已获取资源中的子资源(文档内的 某个位置)。但在 RFC 中并没有明确规定其使用方法。该项也为可选项

2.简单的 HTTP 协议

2.1 通过请求和响应的交换达成通信

HTTP 协议规定,请求从客户端发出,最后服务器端响应该请求并 返回。换句话说,肯定是先从客户端开始建立通信的,服务器端在没有 接收到请求之前不会发送响应。综合来看,这段请求内容的意思是:请求访问某台 HTTP 服务器上的 /index.htm 页面资源。

image.png

起始行开头的 GET 表示请求访问服务器的类型,称为方法 (method)。随后的字符串 /index.htm 指明了请求访问的资源对象,也叫 做请求 URI(request-URI)。最后的 HTTP/1.1,即 HTTP 的版本号,用来提示客户端使用的 HTTP 协议功能。

请求报文是由请求方法请求 URI协议版本可选的请求首部字段内容实体构成的。

image.png

响应报文基本上由协议版本状态码用以解释状态码的原因短语可选的响应首部字段以及实体主体构成。

image.png

2.2 HTTP 是不保存状态的协议

HTTP 是无状态协议。HTTP 协议自身不对请求和响应之间的通信状态进行保存。也就是说在 HTTP 这个级别,协议对于发送过的请求或响应都不做持久化处理。HTTP/1.1 虽然是无状态协议,但为了实现期望的保持状态功能,于是引入了 Cookie 技术。有了 Cookie 再用 HTTP 协议通信,就可以管理状态了。

2.3 告知服务器意图的 HTTP 方法

  1. GET 获取资源: GET 方法用来请求访问已被 URI 识别的资源。指定的资源经服务 器端解析后返回响应内容。也就是说,如果请求的资源是文本,那就保持原样返回。

  2. POST 传输实体主体:POST 方法用来传输实体的主体。虽然用 GET 方法也可以传输实体的主体,但一般不用 GET 方法进行传输,而是用 POST 方法。虽说 POST 的功能与 GET 很相似,但 POST 的主要目的并不是获取响应的主体内容。

  3. PUT 传输文件:PUT 方法用来传输文件。就像 FTP 协议的文件上传一样,要求在 请求报文的主体中包含文件内容,然后保存到请求 URI 指定的位置。

  4. HEAD 获得报文首部:HEAD 方法和 GET 方法一样,只是不返回报文主体部分。用于确认 URI 的有效性及资源更新的日期时间等。

  5. DELETE 删除文件:DELETE 方法用来删除文件,是与 PUT 相反的方法。DELETE 方 法按请求 URI 删除指定的资源。

  6. OPTIONS 询问支持的方法:OPTIONS 方法用来查询针对请求 URI 指定的资源支持的方法。

  7. TRACE 追踪路径:TRACE 方法是让 Web 服务器端将之前的请求通信环回给客户端的 方法。发送请求时,在 Max-Forwards 首部字段中填入数值,每经过一个 服务器端就将该数字减 1,当数值刚好减到 0 时,就停止继续传输,最后接收到请求的服务器端则返回状态码 200 OK 的响应。客户端通过 TRACE 方法可以查询发送出去的请求是怎样被加工修改/篡改的。这是因为,请求想要连接到源目标服务器可能会通过代理 中转,TRACE 方法就是用来确认连接过程中发生的一系列操作。

  8. CONNECT 要求用隧道协议连接代理:CONNECT 方法要求在与代理服务器通信时建立隧道,实现用隧道 协议进行 TCP 通信。主要使用 SSL(Secure Sockets Layer,安全套接层)和 TLS(Transport Layer Security,传输层安全)协议把通信内容加 密后经网络隧道传输。 image.png

2.4 使用方法下达命令

HTTP/1.0 和 HTTP/1.1 支持的方法,Tips:方法名区分大小写,注意要用大写字母。

image.png

2.5 持久连接节省通信量

持久连接(keep-alive)

特点:只要任意一端没有明确提出断开连接,则保持 TCP 连接状态

优点减少了 TCP 连接的重复建立和断开所造成的额外开销,减轻了服务器端的负载。另外,减少开销的那部分时间,使 HTTP 请求和响应能够更早地结束,这样 Web 页面的显示速度也就相应提高了。 image.png

管线化(pipelining)

特点:持久连接使得多数请求以管线化方式发送成为可能。从前发送请求后需等待并收到响应,才能发送下一个请求。

优点:管线化技术出现后,不用等待响应亦可直接发送下一个请求。 这样就能够做到同时并行发送多个请求,而不需要一个接一个地等 待响应了。

比如,当请求一个包含 10 张图片的 HTML Web 页面,与挨个连接 相比,用持久连接可以让请求更快结束。而管线化技术则比持久连接还 要快。请求数越多,时间差就越明显。 image.png

2.6 使用 Cookie 的状态管理

HTTP 是无状态协议,它不对之前发生过的请求和响应的状态进行管理。也就是说,无法根据之前的状态进行本次的请求处理。

假设要求登录认证的 Web 页面本身无法进行状态的管理(不记录已登录的状态),那么每次跳转新页面不是要再次登录,就是要在每次请求报文中附加参数来管理登录状态。

Cookie 会根据从服务器端发送的响应报文内的一个叫做 Set-Cookie 的首部字段信息,通知客户端保存 Cookie。当下次客户端再往该服务器 发送请求时,客户端会自动在请求报文中加入 Cookie 值后发送出去。

3.HTTP 报文内的 HTTP 信息

3.1 编码提升传输速率

HTTP 在传输数据时可以按照数据原貌直接传输,但也可以在传输过程中通过编码提升传输速率

3.2 压缩传输的内容编码

向待发送邮件内增加附件时,为了使邮件容量变小,我们会先用 ZIP 压缩文件之后再添加附件发送。HTTP 协议中有一种被称为内容编码的功能也能进行类似的操作。

内容编码指明应用在实体内容上的编码格式,并保持实体信息原样压缩。内容编码后的实体由客户端接收并负责解码。

常用的内容编码有以下几种:

  • gzip(GNU zip)
  • compress(UNIX 系统的标准压缩)
  • deflate(zlib)
  • identity(不进行编码)

3.3 分割发送的分块传输编码

分块传输编码:在 HTTP 通信过程中,请求的编码实体资源尚未全部传输完成之前,浏览器无法显示请求页面。在传输大容量数据时,通过把数据分割成多块,能够让浏览器逐步显示页面。

3.4 发送多种数据的多部分对象集合

在 HTTP 报文中使用多部分对象集合时,需要在首部字段里加上 Content-type

multipart/form-data:在 Web 表单文件上传时使用,基础方法是POST , 也就是说是由POST方法来组合实现的。与POST方法的不同之处在于请求头和请求体。

multipart/byteranges:状态码 206(Partial Content,部分内容)响应报文包含了多个范围的内容时使用。

3.5 获取部分内容的范围请求

以前,用户不能使用现在这种高速的带宽访问互联网,当时,下载一个尺寸稍大的图片或文件就已经很吃力了。如果下载过程中遇到网络中断的情况,那就必须重头开始。为了解决上述问题,需要一种可恢复的机制。所谓恢复是指能从之前下载中断处恢复下载。 image.png

5001~10000 字节: Range:bytes=5001-10000

从5001字节之后全部的:Range: bytes=5001-

从一开始到 3000 字节和 5000~7000 字节的多重范围:Range: bytes=-3000, 5000-7000

针对范围请求,响应会返回状态码为 206 Partial Content 的响应报文。另外,对于多重范围的范围请求,响应会在首部字段Content-Type标明 multipart/byteranges 后返回响应报文。

如果服务器端无法响应范围请求,则会返回状态码 200 OK 和完整的实体内容。

3.6 内容协商返回最合适的内容

内容协商:当浏览器的默认语言为英语或中文,访问相同 URI 的 Web 页面时,则会显示对应的英语版或中文版的 Web 页面。内容协商会以响应资源的语言字符集编码方式等作为判断的基准。

有以下 3 种类型:

  1. 服务器驱动协商(Server-driven Negotiation):由服务器端进行内容协商。以请求的首部字段为参考,在服务器端自动处理。但对用户来说,以浏览器发送的信息作为判定的依据,并不一定能筛选出最优内容。
  2. 客户端驱动协商(Agent-driven Negotiation):由客户端进行内容协商的方式。用户从浏览器显示的可选项列表中手动选择。还可以利用 JavaScript 脚本在 Web 页面上自动进行上述选择。比如按 OS 的类型或浏览器型,自行切换成 PC 版页面或手机版页面。
  3. 透明协商(Transparent Negotiation):是服务器驱动和客户端驱动的结合体,是由服务器端和客户端各自进行内容协商的一种方法。

4. 返回结果的 HTTP 状态码

4.1 状态码的类别

image.png

4.1.1 2XX 成功

2XX 的响应结果表明请求被正常处理了。

200 OK:表示从客户端发来的请求在服务器端被正常处理了。

204 No Content该状态码代表服务器接收的请求已成功处理,但在返回的响应报文中不含实体的主体部分。一般在只需要从客户端往服务器发送信息,而对客户端不需要发送新信息内容的情况下使用。

206 Partial Content该状态码表示客户端进行了范围请求,而服务器成功执行了这部分的 GET 请求。响应报文中包含由 Content-Range 指定范围的实体内容。

4.1.2 3XX 重定向

3XX 响应结果表明浏览器需要执行某些特殊的处理以正确处理请求。

301 Moved Permanently永久性重定向。该状态码表示请求的资源已被分配了新的 URI,以后应使用资源现在所指的 URI。也就是说,如果已经把资源对应的 URI保存为书签了,这时应该按 Location 首部字段提示的 URI 重新保存。

302 Found临时性重定向。该状态码表示请求的资源已被分配了新的 URI,希望用户(本次)能使用新的 URI 访问。比如,用户把 URI 保存成书签,但不会像301 状态码出现时那样去更新书签,而是仍旧保留返回 302 状态码的页面对应的 URI。

303 See Other该状态码表示由于请求对应的资源存在着另一个 URI,应使用 GET方法定向获取请求的资源。303 状态码和 302 Found 状态码有着相同的功能,但 303 状态码明确表示客户端应当采用 GET 方法获取资源,这点与 302 状态码有区别。

304 Not Modified该状态码表示客户端发送附带条件的请求 A 时,服务器端允许请求访问资源,但未满足条件的情况。304 状态码返回时,不包含任何响应的主体部分。304 虽然被划分在 3XX 类别中,但是和重定向没有关系。

307 Temporary Redirect临时重定向。该状态码与 302 Found 有着相同的含义。

4.1.3 4XX 客户端错误

4XX 的响应结果表明客户端是发生错误的原因所在。

400 Bad Request请求报文中存在语法错误。当错误发生时,需修改请求的内容后再次发送请求。另外,浏览器会像 200 OK 一样对待该状态码。

401 Unauthorized该状态码表示发送的请求需要有通过 HTTP 认证。另外若之前已进行过 1 次请求,则表示用户认证失败。

403 Forbidden请求资源的访问被服务器拒绝了。服务器端没有必要给出拒绝的详细理由,但如果想作说明的话,可以在实体的主体部分对原因进行描述,这样就能让用户看到了。

404 Not Found服务器上无法找到请求的资源。除此之外,也可以在服务器端拒绝请求且不想说明理由时使用。

4.1.4 5XX 服务器错误

5XX 的响应结果表明服务器本身发生错误。

500 Internal Server Error服务器端在执行请求时发生了错误。也有可能是 Web应用存在的 bug 或某些临时的故障。

503 Service Unavailable该状态码表明服务器暂时处于超负载或正在进行停机维护,现在无法处理请求。

5. 与 HTTP协作的Web服务器

5.1 用单台虚拟主机实现多个域名

在互联网上,域名通过 DNS 服务映射到 IP 地址(域名解析)之后访问目标网站。可见,当请求发送到服务器时,已经是以 IP 地址形式访问了。在相同的 IP 地址下,由于虚拟主机可以寄存多个不同主机名和域名的 Web 网站,因此在发送 HTTP 请求时,必须在 Host 首部内完整指定主机名或域名的 URI。

5.2 通信数据转发程序

HTTP 通信时,除客户端和服务器以外,还有一些用于通信数据转发的应用程序,例如代理网关隧道。它们可以配合服务器工作。

这些应用程序和服务器可以将请求转发给通信线路上的下一站服务器,并且能接收从那台服务器发送的响应再转发给客户端。

5.2.1 代理

代理服务器的基本行为就是接收客户端发送的请求后转发给其他服务器。代理不改变请求 URI,会直接发送给前方持有资源的目标服务器。持有资源实体的服务器被称为源服务器。从源服务器返回的响应经过代理服务器后再传给客户端。

1. 缓存代理

代理转发响应时,缓存代理(Caching Proxy)会预先将资源的副本(缓存)保存在代理服务器上。当代理再次接收到对相同资源的请求时,就可以不从源服务器那里获取资源,而是将之前缓存的资源作为响应返回。

2. 透明代理

转发请求或响应时,不对报文做任何加工的代理类型被称为透明代理(Transparent Proxy)。反之,对报文内容进行加工的代理被称为非透明代理。

5.2.2 网关

网关的工作机制和代理十分相似。而网关能使通信线路上的服务器提供非 HTTP 协议服务。利用网关能提高通信的安全性,因为可以在客户端与网关之间的通信线路上加密以确保连接的安全。比如,网关可以连接数据库,使用SQL 语句查询数据。另外,在 Web 购物网站上进行信用卡结算时,网关可以和信用卡结算系统联动。

5.2.3 隧道

隧道可按要求建立起一条与其他服务器的通信线路,届时使用 SSL等加密手段进行通信。隧道的目的是确保客户端能与服务器进行安全的通信。隧道本身不会去解析 HTTP 请求。也就是说,请求保持原样中转给之后的服务器。隧道会在通信双方断开连接时结束。

5.3 保存资源的缓存

缓存:指代理服务器或客户端本地磁盘内保存的资源副本。利用缓存可减少对源服务器的访问,因此也就节省了通信流量和通信时间。

缓存服务器:是代理服务器的一种,并归类在缓存代理类型中。换句话说,当代理转发从服务器返回的响应时,代理服务器将会保存一份资源的副本。优势在于利用缓存可避免多次从源服务器转发资源。因此客户端可就近从缓存服务器上获取资源,而源服务器也不必多次处理相同的请求了。

客户端的缓存:缓存不仅可以存在于缓存服务器内,还可以存在客户端浏览器中。浏览器缓存如果有效,就不必再向服务器请求相同的资源了,可以直接从本地磁盘内读取。另外,和缓存服务器相同的一点是,当判定缓存过期后,会向源服务器确认资源的有效性。若判断浏览器缓存失效,浏览器会再次请求新资源。

6. HTTP 首部

6.1 HTTP 报文首部

HTTP 请求报文方法URIHTTP 版本HTTP 首部字段等部分构成。

HTTP 响应报文HTTP 版本状态码HTTP 首部字段 3 部分构成。

6.2 HTTP 首部字段

6.2.1 HTTP 首部字段结构

HTTP 首部字段是由首部字段名和字段值构成的,中间用冒号 “ : ” 分隔

字段值对应单个 HTTP 首部字段可以有多个值,如下所示

image.png

6.2.2 4种 HTTP 首部字段类型

通用首部字段(General Header Fields):请求报文和响应报文两方都会使用的首部。

请求首部字段(Request Header Fields):从客户端向服务器端发送请求报文时使用的首部。补充了请求的附 加内容、客户端信息、响应内容相关优先级等信息。

响应首部字段(Response Header Fields):从服务器端向客户端返回响应报文时使用的首部。补充了响应的附加内容,也会要求客户端附加额外的内容信息。

实体首部字段(Entity Header Fields):针对请求报文和响应报文的实体部分使用的首部。补充了资源内容 更新时间等与实体有关的信息。

6.2.3 HTTP/1.1 首部字段一览

通用首部字段

image.png

请求首部字段

image.png

响应首部字段

image.png

image.png

实体首部字段

image.png

6.2.4 End-to-end 首部和 Hop-by-hop 首部

HTTP 首部字段将定义成缓存代理和非缓存代理的行为,分成 2 种类型。

端到端首部(End-to-end Header):分在此类别中的首部会转发给请求 / 响应对应的最终接收目标,且 必须保存在由缓存生成的响应中,另外规定它必须被转发。

逐跳首部(Hop-by-hop Header):分在此类别中的首部只对单次转发有效,会因通过缓存或代理而不 再转发。HTTP/1.1 和之后版本中,如果要使用 hop-by-hop 首部,需提供 Connection 首部字段。

下面列举了 HTTP/1.1 中的逐跳首部字段。除这 8 个首部字段之外,其他所有字段都属于端到端首部。

● Connection

● Keep-Alive

● Proxy-Authenticate

● Proxy-Authorization

● Trailer

● TE

● Transfer-Encoding

● Upgrade

6.3 HTTP 1.1 通用首部字段

通用首部字段:是指请求报文响应报文都会使用的首部。

Cache-Control

指令的参数是可选的,多个指令之间通过“,”分隔。首部字段 Cache-Control 的指令可用于请求及响应时。

1. no-cache: 防止从缓存中返回过期的资源。客户端请求如果包含 no-cache,表示客户端将不会接收缓存过的响应,缓存服务器必须把客户端请求转发给源服务器。服务器响应中包含 no-cache,那么缓存服务器不能对资源进行缓存,源服务器以后也将不再对缓存服务器请求中提出的资源有效性进行确认,且禁止其对响应资源进行缓存操作。

2. no-store: 缓存不能在本地存储请求或响应的任一部分。

从字面意思上很容易把 no-cache 误解成为不缓存,但 no-cache 代表不缓存过期的资源,缓存会向源服务器进行有效期确认后处理资源,no-store 才是真正地不进行缓存。

Connection

1. 控制不再转发给代理的首部字段: 在客户端发送请求和服务器返回响应内,使用 Connection 首部字段,可控制不再转发给代理的首部字段(即 Hop-by-hop 首部)。

2. 管理持久连接: HTTP1.1 默认持久连接,客户端会在持久连接上连续发送请求。服务器端想断开连接时,则设置 Connection 首部字段为 Close。HTTP1.1 之前默认都是非持久连接。为此,如果想在旧版本 HTTP 协议上持续连接,则需设置 Connection 首部字段为 Keep-Alive

Date

表明创建 HTTP 报文的日期和时间。

Upgrade

用于检测 HTTP 协议及其他协议是否可使用更高的版本进行通信,其参数值可以用来指定一个完全不同的通信协议。

6.4 请求首部字段

从客户端往服务器端发送请求报文中所使用的字段,用于补充请求的附加信息、客户端信息、对响应内容相关的优先级等内容。

Accept

通知服务器,用户代理能够处理的媒体类型及媒体类型的相对优先级。可使用 type/subtype 这种形式,一次指定多种媒体类型。

Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

Host

告知服务器,请求的资源所处的互联网主机名和端口号。Host 首部字段在 HTTP1.1 规范内是唯一一个必须被包含在请求内的首部字段。

请求被发送至服务器时,主机名会直接用 IP 地址。但如果这时,相同的 IP 地址下部署多个域名,那么服务器就会无法理解究竟是哪个域名对应的请求。因此,就需要使用首部字段 Host 来明确指出请求的主机名。若服务器未设定主机名,那直接设空值即可。

If-Match

形如 If-xxx 这种,都可称为条件请求。服务器接收到后,只有判断指定条件为真时,才会执行请求。

首部字段 If-Match,属附带条件之一,它会告知服务器匹配资源所用的实体标记(ETag)值。这时的服务器无法使用弱 ETag 值。服务器会比对 If-Match 的字段值和资源的 ETag 值,仅当两者一致时,才会执行请求。

可以用星号*,服务器会忽略 Etag 的值,只要资源存在就处理请求。

If-None-Match

If-Match 作用相反,用于指定 If-None-Match 的实体标记 ETag 值与请求资源的 ETag 不一致时,它就告知服务器处理该请求。

If-Modified-Since

如果在 If-Modified-Since 字段指定的日期时间后资源发生了更新,服务器会接受请求。

指定 If-Modified-Since 字段值的日期时间之后,请求的资源在给定的日期时间之后对内容进行过修改的情况下才会将资源返回,状态码为 200,如果请求的资源没有更新,则返回状态码 304 Not Modified 的响应。

If-Unmodified-Since

If-Unmodified-SinceIf-Modified-Since 的作用相反。它的作用的是告知服务器,指定的请求资源只有在指定日期时间之后未发生更新,才处理请求。如果在指定日期时间后发生了更新,则以状态码 412 Precondition Failed 作为响应返回。

If-Range

If-Range 字段如果跟 ETag 值或更新的日期时间一致,那么就作为范围请求处理。反之,则返回全体资源。

6.5 响应首部字段

由服务器端向客户端返回响应报文中所使用的字段,用于补充响应的附加信息、服务器信息,以及对客户端的附加要求等信息。

ETag

实体标识,将资源以字符串形式做唯一性标识的方式。服务器会为每份资源分配对应的 ETag 值。当资源更新时,ETag 值也需要更新。

若在下载过程中出现连接中断、再连接的情况,都会依照 ETag 值来指定资源。

6.6 实体首部字段

包含在请求报文和响应报文中的实体部分所使用的首部,用于补充内容的更新时间等与实体相关的信息。

Allow

通知客户端能够支持的所有 HTTP 方法。当服务器接收到不支持的 HTTP 方法时,会以状态码 405 Method Not Allowed 作为响应返回。与此同时,还会把所有能支持的 HTTP 方法写入首部字段 Allow 后返回。

Content-Encoding

告知客户端服务器对实体的主体部分选用的内容编码方式。内容编码是指在不丢失实体信息的前提下所进行的压缩。 主要有:gzip、compress、deflate、identity

Content-Length

表明了实体主体部分的大小(单位是字节)。对实体主体进行内容编码传输时,不能再使用 Content-Length 首部字段。

Content-Type

说明了实体主体内对象的媒体类型,用 type/subtype 形式赋值。

Content-Type: text/html; charset=UTF-8

Expires

Expires 会将资源失效的日期告知客户端。缓存服务器在收到有 Expires 的响应后,会以缓存来应答请求,在 Expires 字段值指定的时间之前,响应的副本会一直被保存。当超过指定的时间后,缓存服务器在请求发送过来时,会转向源服务器请求资源。

源服务器不希望缓存服务器对资源缓存时,最好在 Expires 字段内写入与 Date 相同的时间值。但是,当首部字段 Cache-Control 有指定max-age 时,比起 Expires,会优先处理 max-age 指令。

Last-Modified

包含源头服务器认定的资源做出修改的日期及时间。

6.7 为 Cookie 服务的首部字段

image.png

Set-Cookie

Set-Cookie: status=enable; expires=Tue, 05 Jul 2011 07:26:31 GMT; ⇒ path=/; domain=.hackr.jp;

Set-Cookie 字段的属性

image.png

image.png

一旦 Cookie 从服务器端发送至客户端,服务器端就没有显式删除 Cookie 的方法。但可通过覆盖已过期的 Cookie,实现对客户端 Cookie 的实质性删除操作。

Cookie

Cookie: status=enable

当客户端想获得 HTTP 状态管理支持时,就会在请求中包含从服务器接收到的 Cookie。接收到多个 Cookie 时,同样可以以多个 Cookie 形式发送。

6.8 其他首部字段

X-Frame-Options

X-Frame-Options: DENY

首部字段 DNT 可指定的字段值如下:

● DENY :拒绝

● SAMEORIGIN :仅同源域名下的页面匹配时许可。

X-XSS-Protection

首部字段 X-XSS-Protection 属于 HTTP 响应首部,它是针对跨站脚本攻击(XSS)的一种对策,用于控制浏览器 XSS 防护机制的开关。

首部字段 DNT 可指定的字段值如下:

● 0 :将 XSS 过滤设置成无效状态

● 1 :将 XSS 过滤设置成有效状态

DNT

首部字段 DNT 属于 HTTP 请求首部,其中 DNTDo Not Track的简称,意为拒绝个人信息被收集,是表示拒绝被精准广告追踪的一种方法。

首部字段 DNT 可指定的字段值如下:

● 0 :同意被追踪

● 1 :拒绝被追踪

7. 确保Web安全的 HTTPS

7.1 HTTP 的缺点

● 通信使用明文(不加密),内容可能会被窃听

● 不验证通信方的身份,因此有可能遭遇伪装

● 无法证明报文的完整性,所以有可能已遭篡改

7.2 HTTP+ 加密 + 认证 + 完整性保护 = HTTPS

我们把添加了加密及认证机制的 HTTP 称为 HTTPS(HTTP Secure)。HTTPS 并非是应用层的一种新协议。只是 HTTP 通信接口部分用 SSL(Secure Socket Layer)TLS(Transport Layer Security)协议代替而已。

SSL 是独立于 HTTP 的协议,所以不光是 HTTP 协议,其他运行在应用层的 SMTP 和 Telnet 等协议均可配合 SSL 协议使用。

image.png

对称密钥加密:加密和解密同用一个密钥的方式称为共享密钥加密。

HTTPS 采用共享密钥加密公开密钥加密两者并用的混合加密机制。若密钥能够实现安全交换,那么有可能会考虑仅使用公开密钥加密来通信。但是公开密钥加密与共享密钥加密相比,其处理速度要慢。在交换密钥环节使用公开密钥加密方式,之后的建立通信交换报文阶段则使用共享密钥加密方式。

数字证书认证机构(CA,Certificate Authority)和其相关机关颁发的公开密钥证书就是认证的可以信赖的公开密钥,服务器会将这份由数字证书认证机构颁发的公钥证书发送给客户端,以进行公开密钥加密方式通信。公钥证书也可叫做数字证书或直接称为证书。

image.png

HTTPS 的通信步骤

  1. 客户端通过发送 Client Hello 报文开始 SSL 通信。报文中包含客户端支持的 SSL 的指定版本、加密组件(CipherSuite)列表(所使用的加密算法及密钥长度等)。

  2. 服务器可进行 SSL 通信时,会以 Server Hello 报文作为应答。和客户端一样,在报文中包含 SSL 版本以及加密组件。服务器的加密组件内容是从接收到的客户端加密组件内筛选出来的。

  3. 之后服务器发送 Certificate 报文。报文中包含公开密钥证书。

  4. 最后服务器发送 Server Hello Done 报文通知客户端,最初阶段的 SSL 握手协商部分结束。

  5. SSL 第一次握手结束之后,客户端以 Client Key Exchange 报文作为回应。报文中包含通信加密中使用的一种被称为 Pre-master secret 的随机密码串。该报文已用步骤 3 中的公开密钥进行加密。

  6. 接着客户端继续发送 Change Cipher Spec 报文。该报文会提示服务器,在此报文之后的通信会采用 Premaster secret 密钥加密。

  7. 客户端发送 Finished 报文。该报文包含连接至今全部报文的整体校验值。这次握手协商是否能够成功,要以服务器是否能够正确解密该报文作为判定标准。

  8. 服务器同样发送 Change Cipher Spec 报文。

  9. 服务器同样发送 Finished 报文。

  10. 服务器和客户端的 Finished 报文交换完毕之后,SSL 连接就算建立完成。当然,通信会受到 SSL 的保护。从此处开始进行应用层协议的通信,即发送 HTTP 请求。

  11. 应用层协议通信,即发送 HTTP 响应。

  12. 最后由客户端断开连接。断开连接时,发送 close_notify

image.png

在以上流程中,应用层发送数据时会附加一种叫做 MAC(MessageAuthentication Code)的报文摘要。MAC 能够查知报文是否遭到篡改,从而保护报文的完整性

SSL速度慢吗

SSL 的慢分两种。一种是指通信慢。另一种是指由于大量消耗 CPU 及内存等资源,导致处理速度变慢。

和 HTTP 对比:网络负载可能会变慢 2 到 100 倍。除去和 TCP 连接发送 HTTP 请求 • 响应以外,还必须进行 SSL 通信,因此整体上处理通信量不可避免会增加。

针对速度变慢这一问题,并没有根本性的解决方案,我们会使用SSL 加速器这种(专用服务器)硬件来改善该问题。仅在 SSL 处理时发挥 SSL 加速器的功效,以分担负载。

不一直使用 HTTPS 的原因

与纯文本通信相比,加密通信会消耗更多的 CPU 及内存资源。如果每次通信都加密,会消耗相当多的资源,平摊到一台计算机上时,能够处理的请求数量必定也会随之减少。

如果是非敏感信息则使用 HTTP 通信,只有在包含个人信息等敏感数据时,才利用 HTTPS 加密通信。可以仅在那些需要信息隐藏时才加密,以节约资源。

除此之外,想要节约购买证书的开销也是原因之一。

8. 确认访问用户身份的认证

何为认证

核对的信息通常是指

● 密码:只有本人才会知道的字符串信息。

● 动态令牌:仅限本人持有的设备内显示的一次性密码。

● 数字证书:仅限本人(终端)持有的信息。

● 生物认证:指纹和虹膜等本人的生理信息。

● IC 卡等:仅限本人持有的信息。

HTTP 使用的认证方式

● BASIC 认证(基本认证)

● DIGEST 认证(摘要认证)

● SSL 客户端认证

● FormBase 认证(基于表单认证)

9. 基于 HTTP的功能追加协议

9.1 使用浏览器进行全双工通信的 WebSocket

WebSocket 技术主要是为了解决 Ajax 和 Comet 里 XMLHttpRequest 附带的缺陷所引起的问题。

9.2 WebSocket 协议

特点

推送功能:支持由服务器向客户端推送数据的推送功能。这样,服务器可直接发送数据,而不必等待客户端的请求。

减少通信量:只要建立起 WebSocket 连接,就希望一直保持连接状态。和 HTTP 相比,不但每次连接时的总开销减少,而且由于 WebSocket 的首部信息很小,通信量也相应减少了。实现 WebSocket 通信,在 HTTP 连接建立之后,需要完成一次“握手”(Handshaking)的步骤。

握手·请求:为了实现 WebSocket 通信,需要用到 HTTP 的 Upgrade 首部字段,告知服务器通信协议发生改变,以达到握手的目的。

GET /chat HTTP/1.1
Host: server.example.com
Upgrade: websocket
Connection: Upgrade
Sec-WebSocket-Key: dGhlIHNhbXBsZSBub25jZQ==
Origin: http://example.com
Sec-WebSocket-Protocol: chat, superchat
Sec-WebSocket-Version: 13

Sec-WebSocket-Key 字段内记录着握手过程中必不可少的键值。Sec-WebSocket-Protocol 字段内记录使用的子协议。

握手·响应:对于之前的请求,返回状态码 101 Switching Protocols 的响应。

HTTP/1.1 101 Switching Protocols
Upgrade: websocket
Connection: Upgrade
Sec-WebSocket-Accept: s3pPLMBiTxaQ9kYGzzhZRbK+xOo=
Sec-WebSocket-Protocol: chat

Sec-WebSocket-Accept 的字段值是由握手请求中的 Sec-WebSocketKey 的字段值生成的。成功握手确立 WebSocket 连接之后,通信时不再使用 HTTP 的数据帧,而采用 WebSocket 独立的数据帧。

WebSocket 通信图:

image.png

以下为调用 WebSocket API,每 50ms 发送一次数据的实例

var socket = new WebSocket('ws://game.example.com:12010/updates');
socket.onopen = function () {
 setInterval(function() {
 if (socket.bufferedAmount == 0)
 socket.send(getUpdateData());
 }, 50);
};

9.3 HTTP/2.0(改善用户在使用 Web 时的速度体验。)

特点

  1. HTTP/2.0 采用二进制格式而非文本格式

  2. HTTP/2.0 是完全多路复用的,而非有序并阻塞的——只需一个连接即可实现并行

  3. 使用报头压缩,HTTP/2.0 降低了开销

  4. HTTP/2.0 让服务器可以将响应主动“推送”到客户端缓存中

10. 构建Web内容的技术

10.1 HTML

HTML(HyperText Markup Language,超文本标记语言)是为了发送 Web 上的超文本(Hypertext)而开发的标记语言。

超文本是一种文档系统,可将文档中任意位置的信息与其他信息(文本或图片等)建立关联,即超链接文本。

10.2 Web 应用

Web 应用是指通过 Web 功能提供的应用程序。

CGI 每次接到请求,都要跟着启动一次,一旦访问量过大,Web 服务器要承担相当大的负载。而 Servlet 运行在与 Web 服务器相同的进程中,因此受到的负载较小。

Servlet 的运行环境叫 Web 容器或 Servlet 容器。随着 CGI 的普及,每次请求都要启动新 CGI 程序的 CGI 运行机制逐渐变成了性能瓶颈。而 Servlet 常驻内存,在每次请求时,可启动相对进程级别更为轻量的Servlet,程序的执行效率从而变得更高。