一个数据包的旅程

231 阅读8分钟

前言

现代前端概念里,有一个很重要的衡量 Web 性能的指标,FP(First Print),它所表述的是页面从加载到首次开始绘制的时长,这个指标直接影响到了用户的跳出率。更快的页面响应意味着更多的 PV、更高的参与度,以及更高的转化率。那么,影响 FP 指标的因素有哪些呢?其中一个很重要的因素就是网络加载速度。

想要优化页面的加载速度,你就需要对网络有充分的了解,而理解网络的关键是要对网络协议有深刻的认识,不论是 HTTP,还是 WebSocket,它们都是基于 TCP/IP 的,如果你对这些原理有足够的了解,也就清楚如何去优化加载性能,更轻松的定位 Web 问题了。

协议

互联网,实际上是一套理念和协议组成的体系架构,其中,协议是一套众知和众遵的规则和标准,如果各方都同意使用,那么它们之间的通信将变得畅通无阻。

数据包

互联网中的数据都是通过数据包来传输的,如果发送的数据很大,那么该数据就会被拆分为很多小数据包来传输,比如我们现在听的音乐,就是拆分成一个个小的数据包来传输的,并不是一个大的文件一次传输过来的。

IP

数据包要在互联网上进行传输,就要符合网际协议(Internet Protocol,简称 IP)标准。互联网上,不同的在线设备都有唯一的地址,地址只是一个数字,这个地址和我们寄快递时用的家庭地址类似,寄快递的时候,我们只需要知道一个正确的地址,就可以往这个地址发送包裹,这样物流系统就能把包裹送到目的地,同样,如果我们知道一台设备的 IP 地址,我们就能够往这台设备上发送数据。

但是,数据在发送之前,为了能让它遵守网络里的交通规则,我们需要对其进行一下加工,如果我们想要把一个数据包从主机 A 发送给主机 B,在传输之前,数据包会被附加上主机 B 的 IP 地址信息,这样数据包在传输过程中才能正确寻址。额外的,数据包还会被附加上主机 A 本身的 IP 地址,有了这些信息,主机 B 才可以回复信息给主机 A。

这些附加的信息会被装进一个叫 IP 头的数据结构里。IP 头是数据包开头的信息,包含 IP 版本、源 IP 地址、目标 IP 地址、生存时间等信息。

为了方便理解,我们先把网络简单分为三层结构:

Screenshot_20220210_102339.jpg

数据包的旅程

下面,我们一起来看一下一个数据包从主机 A 到主机 B 的旅程。

上层首先将打包好的数据交给了网络层,网络层再将 IP 头附加到数据包上组成新的 IP 数据包,并交给底层,底层再通过物理网络将数据包传输给主机 B。数据包被传输到主机 B 的网络层,在这里主机 B 拆开数据包的 IP 头信息,并将拆开来的数据部分交给上层,最终,数据包就到达了主机 B 的上层。

UDP

IP 是非常底层的协议,只负责把数据包传送到对方电脑,但是对方电脑并不知道要把数据包交给哪个应用程序,是交给浏览器还是交给 LOL ?因此,为了能让数据包进入正确的应用程序,还需要基于 IP 之上开发能和应用打交道的协议,最常见的就是:用户数据包协议(User Datagram Protocol),简称 UDP。

UDP 中有一个最重要的信息,端口号。端口号其实就是一个数字,每个想访问网络的应用程序都需要绑定一个端口号,通过端口号,UDP 就能把指定的数据包发送给指定的应用程序了。所以,IP 通过 IP 地址把数据包发送给指定的电脑,而 UDP 则通过端口号将数据包交给正确的应用程序。

和 IP 头一样,端口号也会被装进 UDP 头里,UDP 头再和原始数据包组合成新的 UDP 数据包。UDP 头中除了目的端口,还有源端口号信息。

为了支持 UDP 协议,我们把前面的三层网络结构扩充为四层:

Screenshot_20220210_102413.jpg

下面,我们再来一起看一下一个数据包从主机 A 到主机 B 的旅程。

首先,上层将打包好的数据交给传输层,传输层会在数据包前面附加上 UDP 头组成新的 UDP 数据包,再将新的 UDP 数据包交给网络层,网络层拿到数据包后会再将 IP 头附加到数据包上组成新的 IP 数据包,然后交给底层。

数据包被传输到主机 B 的网络层后,主机 B 在这里拆开 IP 头信息,并将拆开来的数据部分交给传输层,在传输层里,数据包的 UDP 头会被拆开,根据 UDP 头中所提供的端口号,数据包最终被交到上层的应用程序。

UDP 的特点

在使用 UDP 发送数据时,有各种因素会导致数据包出错,虽然 UDP 可以校验数据是否正确,但是对于错误的数据包,UDP 并不能提供重发机制,只是丢弃掉当前包,而且,UDP 在发送之后也无法知道是否能到达目的地。

虽然,UDP 不能保证数据的可靠性,但是传输速度非常快,所以,UDP 一般会应用在关注速度、但不那么严格要求数据完整性的领域,如在线视频、互动游戏等。

TCP

对于浏览器请求,或者邮件这类要求数据传输可靠性的应用,使用 UDP 传输会存在两个问题:

  1. 数据包在传输过程中容易丢失
  2. 大文件会被拆分成很多小的数据包来传输,这些小的数据包会经过不同的路由,并在不同时间到达接收端,而 UDP 并不知道如何组装这些数据包从而把这些数据包还原成完整的文件。

基于这两个问题,我们引入了 TCP。

TCP,传输控制层协议,是一种面向连接的、可靠的、基于字节流的传输层通信协议。相对于 UDP,TCP 有下面两个特点:

  1. 对于数据包丢失的情况,TCP 提供了重传机制。
  2. TCP 引入了数据包排序机制,用来保证把乱序的数据包组合成一个完整的文件

和 UDP 头一样,TCP 头除了包含目标端口号和本机端口号外,还提供了用于排序的的序列号,以便接收端通过序列号来重排数据包。

TCP 单个数据包的传输流程:

Screenshot_20220210_102444.jpg

通过上图,你应该大致了解一个数据包是如何通过 TCP 来传输的。TCP 单个数据包的传输流程和 UDP 差不多,不同的地方在于,通过 TCP 头的信息保证了一大块数据传输的完整性。

从上图中可以看出,一个完整的 TCP 连接的生命周期包括了:建立连接、传输数据、断开连接三个阶段。

一个 TCP 连接的生命周期

建立连接:

这个阶段是通过残次握手来建立客户端和服务器之间的连接的,TCP 提供面向连接的通讯传输,面向连接指的是,在数据通讯开始之前先做好两端之间的准备工作。

所谓三次握手,是指在建立一个 TCP 连接时,客户端和服务端总共要发送三个数据包以确认连接的建立。

传输数据:

在该阶段,接受端也需要对每个数据包进行确认操作,也就是接收端在接受到数据包之后需要发送确认数据包给发送端。所以,当发送端发送了一个数据包之后,在规定的时间内没有接收到接受端反馈的确认消息,则判断为数据包丢失,并触发发送端的重发机制。同样,一个大的文件在传输过程中会被拆分成很多小的数据包,这些数据包到达接收端后,接收端会按照 TCP 头中的序号为其排序,从而保证组成完整的数据。

断开连接:

数据传输完毕之后,就要终止连接了,涉及到最后一个阶段四次挥手来保证双方能断开连接。

TCP 的缺点

到这里,你应该就能明白,TCP 为了保证数据传输的可靠性,牺牲了数据包的传输速度,三次握手和数据包校验机制把传输过程中的数据包量提高了一倍。