轻松搞懂数据传输(IP/UDP/TCP)

489 阅读9分钟

这是我参与8月更文挑战的第3天,活动详情查看: 8月更文挑战

序言

今天我们学习的内容是Web世界中的 TCP/IP 是如何工作的,这些知识可以让我们了解 Web 世界中,数据是如何传输的,为以后我们学习 HTTP 和优化 Web 页面性能起到一些启发和帮助。

IP(网络协议)

互联网数据的传输就和生活中快递的传输一样,有发送就有接收,你只需要知道一个用户的具体地址,你就可以给他发送东西。

计算机的地址就称为 IP 地址,访问任何网站,实际上只是你的计算机向另外一台计算请求信息。如果想把一个数据包从主机 A 发送给主机 B,那么传输前,数据包会附加上主机 B 和主机 A 本身的 IP 地址信息,这样数据传输就知道要传输到哪里,谁传来的。

以上这些附加信息会被装到一个 IP 头的数据结构中,IP 头中包含 IP 版本源 IP 地址,目标 IP 地址,生存时间等信息。 ​

我们简单的整理一下一个数据包传输的流程。

  1. 主机A将数据包交给网络层发送。
  2. 网络层再将 IP 头附加到数据包上,组合成新的 IP 数据包 , 并且传输给物理层。
  3. 物理层将数据传输给主机 B 。
  4. 主机 B 的网络层接收数据包,拆开数据包的 IP 头信息,并将数据部分给 主机B 上层。
  5. 主机 B 上层接收。

UDP(用户数据包协议)

为什么需要UDP

IP 是非常底层的协议,只负责把数据包传送到对方的电脑,但是对方电脑并不知道把数据包交给哪个应用程序,是交给QQ还是微信?因此需要一个更为详细的用户数据包协议,简称为 UDP。

端口号是什么

端口是 UDP 中一个最重要的信息,本质其实就是一个数字,每个想要访问网络的程序都需要绑定一个端口号,通过端口号 UDP 就能把指定的数据包发给指定的程序了。

IP 通过 IP 地址信息把数据包发送给指定的电脑,而 UDP 通过端口号把数据包分发给正确的程序。和 IP 头一样,端口号会被装进 UDP 头里面,UDP 头再和原始数据包合并组成新的 UDP 数据包。UDP 头中除了目的端口,还有源端口号等信息。 ​

我们简单的整理一下一个加入 UDP 的数据包传输的流程。

  1. 上层将数据包交给传输层;
  2. 传输层会在数据包前面附加上 UDP 头,组成新的 UDP 数据包,再将新的 UDP 数据包交给网络层;
  3. 网络层再将 IP 头附加到数据包上,组成新的 IP 数据包,并交给底层;
  4. 数据包被传输到主机 B 的网络层,在这里主机 B 拆开 IP 头信息,并将拆开来的数据部分交给传输层;
  5. 在传输层,数据包中的 UDP 头会被拆开,并根据 UDP 中所提供的端口号,把数据部分交给上层的应用程序;
  6. 最终,数据包就传输到了主机 B 上层应用程序这里。

UDP优缺点:UDP 不能保证数据可靠性,但是传输速度却非常快,所以 UDP 会应用在一些关注速度、但不那么严格要求数据完整性的领域,如在线视频、互动游戏等。 ​

TCP(传输控制协议)

对于浏览器的请求,使用 UDP 来传输会存在两个问题。

  1. 数据包在传输过程中容易丢失。
  2. 大文件会被拆分成很多小的数据包来传输,这些小的数据包会经过不同的路由,并在不同的时间到达接收端,而 UDP 协议并不知道如何组装这些数据包,从而把这些数据包还原成完整的文件。

所以基于这些问题,TCP出现了,这是一种面向连接的,可靠的,基于字节流的传输层通信协议。相对UDP,TCP有下面两个特点。

  1. 对于数据包丢失的情况,TCP提供重传机制。
  2. TCP 引入了数据包排序机制,用来保证把乱序的数据包组合成一个完整的文件。

TCP的三次握手

注解:TCP协议中,主动发起请求的一端称为『客户端』,被动连接的一端称为『服务端』。不管是客户端还是服务端,TCP连接建立完后都能发送和接收数据。 起初,服务器和客户端都为CLOSED状态。在通信开始前,双方都得创建各自的传输控制块(TCB)。 服务器创建完TCB后遍进入LISTEN状态,此时准备接收客户端发来的连接请求。

第一次握手

客户端向服务端发送连接请求报文段。该报文段的头部中SYN=1,ACK=0,seq=x。请求发送后,客户端便进入SYN-SENT状态。

注解1:SYN=1,ACK=0表示该报文段为连接请求报文。

注解2:x为本次TCP通信的字节流的初始序号。 TCP规定:SYN=1的报文段不能有数据部分,但要消耗掉一个序号。

第二次握手

服务端收到连接请求报文段后,如果同意连接,则会发送一个应答:SYN=1,ACK=1,seq=y,ack=x+1。 该应答发送完成后便进入SYN-RCVD状态。

注解1:SYN=1,ACK=1表示该报文段为连接同意的应答报文。

注解2:seq=y表示服务端作为发送者时,发送字节流的初始序号。

注解3:ack=x+1表示服务端希望下一个数据报发送序号从x+1开始的字节。

第三次握手

当客户端收到连接同意的应答后,还要向服务端发送一个确认报文段,表示:服务端发来的连接同意应答已经成功收到。 该报文段的头部为:ACK=1,seq=x+1,ack=y+1。 客户端发完这个报文段后便进入ESTABLISHED状态,服务端收到这个应答后也进入ESTABLISHED状态,此时连接的建立完成!

为什么连接建立需要三次握手,而不是两次握手?

防止失效的连接请求报文段被服务端接收,从而产生错误。

注解:失效的连接请求:若客户端向服务端发送的连接请求丢失,客户端等待应答超时后就会再次发送连接请求,此时,上一个连接请求就是『失效的』。 若建立连接只需两次握手,客户端并没有太大的变化,仍然需要获得服务端的应答后才进入ESTABLISHED状态,而服务端在收到连接请求后就进入ESTABLISHED状态。此时如果网络拥塞,客户端发送的连接请求迟迟到不了服务端,客户端便超时重发请求,如果服务端正确接收并确认应答,双方便开始通信,通信结束后释放连接。此时,如果那个失效的连接请求抵达了服务端,由于只有两次握手,服务端收到请求就会进入ESTABLISHED状态,等待发送数据或主动发送数据。但此时的客户端早已进入CLOSED状态,服务端将会一直等待下去,这样浪费服务端连接资源。

TCP的四次挥手

image.png TCP连接的释放一共需要四步,因此称为『四次挥手』。 我们知道,TCP连接是双向的,因此在四次挥手中,前两次挥手用于断开一个方向的连接,后两次挥手用于断开另一方向的连接。

第一次挥手

若A认为数据发送完成,则它需要向B发送连接释放请求。该请求只有报文头,头中携带的主要参数为: FIN=1,seq=u。此时,A将进入FIN-WAIT-1状态。

注解1:FIN=1表示该报文段是一个连接释放请求。

注解2:seq=u,u-1是A向B发送的最后一个字节的序号。

第二次挥手

B收到连接释放请求后,会通知相应的应用程序,告诉它A向B这个方向的连接已经释放。此时B进入CLOSE-WAIT状态,并向A发送连接释放的应答,其报文头包含: ACK=1,seq=v,ack=u+1。

注解1:ACK=1:除TCP连接请求报文段以外,TCP通信过程中所有数据报的ACK都为1,表示应答。

注解2:seq=v,v-1是B向A发送的最后一个字节的序号。

注解3:ack=u+1表示希望收到从第u+1个字节开始的报文段,并且已经成功接收了前u个字节。

A收到该应答,进入FIN-WAIT-2状态,等待B发送连接释放请求。 第二次挥手完成后,A到B方向的连接已经释放,B不会再接收数据,A也不会再发送数据。但B到A方向的连接仍然存在,B可以继续向A发送数据。

第三次挥手

当B向A发完所有数据后,向A发送连接释放请求,请求头:FIN=1,ACK=1,seq=w,ack=u+1。B便进入LAST-ACK状态。

第四次挥手

A收到释放请求后,向B发送确认应答,此时A进入TIME-WAIT状态。该状态会持续2MSL时间,若该时间段内没有B的重发请求的话,就进入CLOSED状态,撤销TCB。当B收到确认应答后,也便进入CLOSED状态,撤销TCB。

为什么A要先进入TIME-WAIT状态,等待2MSL时间后才进入CLOSED状态?

为了保证B能收到A的确认应答。 若A发完确认应答后直接进入CLOSED状态,那么如果该应答丢失,B等待超时后就会重新发送连接释放请求,但此时A已经关闭了,不会作出任何响应,因此B永远无法正常关闭。 ​