浅谈HTTP历史

187 阅读10分钟

HTTP是什么?

HTTP(超文本传输协议,HyperText Transfer Protocol)是建立在TCP协议之上的一种应用层网络协议。

默认使用80端口,建立之初的目的是为了将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。

HTTP的发展历史?

  • HTTP/0.9:1991年发布,极其简单,只有一个get命令;
  • HTTP/1.0:1996年5月发布,增加了请求头与响应头,响应对象不只限于超文本;
  • HTTP/1.1:1997年1月发布,进一步完善HTTP协议,是目前最流行的版本;
  • SPDY :2009年谷歌发布SPDY协议,主要解决HTTP/1.1效率不高的问题;
  • HTTP/2 :2015年借鉴SPDY的HTTP/2发布。

HTTP/0.9

HTTP/0.9是第一个版本的HTTP协议,已过时。

最早版本是1991年发布的0.9版。该版本极其简单,只有一个命令GET。

发起http请求:

GET /index.html


服务器只能回应HTML格式的字符串,不能回应别的格式。

Hello World

它的组成极其简单,只允许客户端发送GET这一种请求,且不支持请求头。由于没有请求头,造成了HTTP/0.9协议只支持一种内容,即纯文本。

----------------HTTP/0.9具有典型的无状态性,每个事务独立进行处理,事务结束时就释放这个连接,由此可见,HTTP协议的无状态特点在其第一个版本0.9中已经成型,一次HTTP/0.9的传输首先要建立一个由客户端到Web服务器的TCP连接,由客户端发起一个请求,然后由Web服务器返回页面内容,然后连接会关闭。如果请求的页面不存在,也不会返回任何错误码。

HTTP/1.0

HTTP协议的第二个版本,第一个在通信中指定版本号的HTTP协议版本,至今仍被广泛采用。相对于HTTP/0.9增加了如下主要特性:

  • 增加了请求头与响应头
  • 响应对象不只限于纯文本
  • 开始支持客户端通过POST方法向Web服务器提交数据,支持GET、HEAD、POST方法
  • 支持长连接(但默认还是使用短连接)、缓存机制、身份认证

------请求头格式:

第一行是请求命令,请求方法 + 协议版本(HTTP/1.0)。后面就是多行头信息,描述客户端的情况。

GET / HTTP/1.0

User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5)

Accept: /

响应头格式:

第一行是"协议版本 + 状态码 + 状态描述"。后面就是“头信息: + 一个空行(\r\n) + 数据"。

HTTP/1.0 200 OK

Content-Type: text/plain

Content-Length: 137582

Expires: Thu, 05 Dec 1997 16:00:00 GMT

Last-Modified: Wed, 5 August 1996 15:55:28 GMT Server: Apache 0.84

Hello World

HTTP/1.0 版的主要缺点是每个TCP连接只能发送一个请求。发送数据完毕,连接就关闭,如果还要请求其他资源,就必须再新建一个连接。---无状态性

注意:TCP连接的新建成本很高,因为需要客户端和服务器三次握手,断开连接需要四次挥手。所以HTTP 1.0版本的性能比较差。随着网页加载的外部资源越来越多,这个问题就愈发突出了。

为了解决这个问题,有些浏览器在请求时,用了一个非标准的Connection字段。

Connection: keep-alive

这个字段要求服务器不要关闭TCP连接,以便其他请求复用。服务器同样回应这个字段。

这样一个可以复用的TCP连接就建立了,直到客户端或服务器主动关闭连接。但这不是标准字段,因此不是根本的解决办法。

HTTP/1.1

HTTP协议的第三个版本是HTTP/1.1,1997年1月,HTTP/1.1 版本发布,只比 1.0 版本晚了半年。它进一步完善了 HTTP 协议,一直用到了20年后的今天,直到现在还是最流行的版本,相对于HTTP/1.0新增了以下内容:

1,默认为长连接

TCP连接默认不关闭,可以被多个请求复用,不用声明Connection: keep-alive;

2,管道机制(Pipelining)

在同一个TCP连接里面,客户端可以同时发送多个请求。这样就进一步改进了HTTP协议的效率。

-------客户端需要请求两个资源。以前的做法是,在同一个TCP连接里面,先发送A请求,然后等待服务器做出回应,收到后再发出B请求。管道机制则是允许浏览器同时发出A请求和B请求,但是服务器还是按照顺序,先回应A请求,完成后再回应B请求。

3,提供了范围请求功能,也叫分块传输

HTTP 1.0中,存在一些浪费带宽的现象,例如客户端只是需要某个对象的一部分,而服务器却将整个对象送过来了,并且不支持断点续传功能,HTTP 1.1则在请求头引入了range请求头域,它允许只请求资源的某个部分,返回码是206(Partial Content),这样就方便了开发者自由的选择以便于充分利用带宽和连接。这是支持文件断点续传的基础。

4,提供了虚拟主机的功能(HOST域)

在HTTP 1.0中为每台服务器绑定一个唯一的IP地址,因此,请求消息中的URL并没有传递主机名(hostname)。但随着虚拟主机技术的发展,在一台物理服务器上可以存在多个虚拟主机(Multi-homed Web Servers),并且它们共享一个IP地址,通过host:域名来区分不同的主机请求。

HTTP 1.1的请求消息和响应消息都应支持Host头域,且请求消息中如果没有Host头域会报告一个错误(400 Bad Request)。

HTTP/1.1的缺点:

虽然1.1版允许复用TCP连接,但是同一个TCP连接里面,所有的数据通信,服务端是按次序进行响应的。服务器每次只能处理一个响应,才会进行下一个响应。要是前面的回应特别慢,后面就会有许多请求排队等着。这称为"队头堵塞"(Head-of-line blocking)。

为了避免这个问题,只有两种方法:一是减少请求数,二是同时多开持久连接。

HTTP/2.0

HTTP协议的第四个版本是HTTP/2.0,相对于HTTP/1.1新增了以下内容:

二进制分帧:

HTTP 2.0 的所有数据都采用二进制编码

  • 数据帧:客户端与服务器通过交换帧来通信,帧是HTTP 2.0协议通信的最小单位。
  • 数据流:流是连接中的一个虚拟信道,可以承载双向的消息;每个流都有一个唯一的整数标识符(1、2 … N),因为 HTTP/2 的数据包是不按顺序发送的,同一个连接里面连续的数据包,可能属于不同的回应,因此,必须要对数据包做标记,指出它属于哪个回应。
一般来说,HTTP/2 将每个请求或回应的所有数据包,称为一个数据流(stream)。
每个数据流都有一个独一无二的编号。数据包发送的时候,都必须标记数据流ID,用来区分它属于
哪个数据流。另外还规定,客户端发出的数据流,ID一律为奇数,服务器发出的,ID为偶数。
数据流发送到一半的时候,客户端和服务器都可以发送信号(RST_STREAM帧),取消这个数据流。
1.1版取消数据流的唯一方法,就是关闭TCP连接。这就是说,HTTP/2 可以取消某一次请求,同时
保证TCP连接还打开着,可以被其他请求使用。
  • 消息:指逻辑上的 HTTP 消息,比如请求、响应,由一或多个帧组成。

下图演示了数据流中的帧的有序性并发性 。 image.png

HTTP/1.1 版的头信息肯定是文本(ASCII编码),数据体可以是文本也可以是二进制。

HTTP/2 则是一个彻底的二进制协议,头信息和数据体都是二进制,并且统称为"帧"(frame):头信息帧和数据帧。

二进制协议的一个好处是,可以定义额外的帧。如果使用文本实现这种功能,解析数据将会变得非常麻烦,二进制解析则方便得多。

请求优先级

客户端可以指定数据流的优先级。优先级越高,服务器就会越早回应。

多路复用:

多路复用允许通过单一的HTTP/2.0 连接同时发起多重的请求-响应消息。因为有了分帧机制后,HTTP/2.0不再依赖多个TCP 连接去处理并发的请求。每个数据流都拆分成很多互不依赖的帧,所有数据流的数据帧可以乱序发送,还可以分优先级。最后在另一端根据每个帧首部的流标识符把它们重新组合起来。

HTTP 2.0 连接都是持久化的,而且客户端与服务器之间也只需要一个连接(每个域名一个连接)即可。 也就是说HTTP/2 复用TCP连接,在一个连接里,客户端和服务器都可以同时发送多个请求或回应,而且不用按照顺序一一对应,这样就避免了"队头堵塞"。

-----举例来说,在一个TCP连接里面,服务器同时收到了A请求和B请求,于是先回应A请求,结果发现处理过程非常耗时,于是就发送A请求已经处理好的部分, 接着回应B请求,完成后,再发送A请求剩下的部分。

这样双向的、实时的通信,就叫做多工(Multiplexing)。

头部压缩

HTTP 协议不带有状态,每次请求都必须附上所有信息。所以请求的很多字段都是重复的,比如Cookie和User Agent等很多一模一样的内容,每次请求都必须附带,这会浪费很多带宽,也影响速度。

HTTP/2 对这一点做了优化,引入了头信息压缩机制(header compression)。一方面,头信息使用gzip或compress压缩后再发送;另一方面,客户端和服务器同时维护一张头信息表,所有字段都会存入这个表,生成一个索引号,以后就不发送同样字段了,只发送索引号,这样就提高速度了。

服务端推送

HTTP/2 允许服务器未经请求,主动向客户端发送资源,这叫做服务器推送(server push)。

常见场景是客户端请求一个网页,这个网页里面包含很多静态资源。正常情况下,客户端收到网页后,解析HTML源码,发现有静态资源(比如图片、音视频等),再发出静态资源请求。其实,服务器可以预期到客户端请求网页后,很可能会再请求静态资源,所以就主动把这些静态资源随着网页一起发给客户端了。

注意:

1,HTTP/2 的数据包不是按顺序发送的,同一个连接里面连续的数据包,可能属于不同的回应。因此,必须要对数据包做标记,指出它属于哪个回应。

2,HTTP/2 将每个请求或回应的所有数据包,称为一个数据流(stream)。每个数据流都有一个独一无二的编号。数据包发送的时候,都必须标记数据流ID,用来区分它属于哪个数据流。另外还规定,客户端发出的数据流,ID一律为奇数,服务器发出的,ID为偶数。

数据流发送到一半的时候,客户端和服务器都可以发送信号(RST_STREAM帧),取消这个数据流。1.1版取消数据流的唯一方法,就是关闭TCP连接。这就是说,HTTP/2 可以取消某一次请求,同时保证TCP连接还打开着,可以被其他请求使用。

下图演示了HTTP/1.0,HTTP/1.1,HTTP/2的区别: image.png