TCP拥塞控制详解 | 7. 超越TCP本系列是免费电子书《TCP Congestion Control: A Syst

网络传输问题本质上是对网络资源的共享和复用问题，因此拥塞控制是网络工程领域的核心问题之一，并且随着互联网和数据中心流量的爆炸式增长，相关算法和机制出现了很多创新，本系列是免费电子书《TCP Congestion Control: A Systems Approach》的中文版，完整介绍了拥塞控制的概念、原理、算法和实现方式。原文: TCP Congestion Control: A Systems Approach

第7章超越TCP

随着对拥塞控制的探索不断深入，出现了许多新的算法和协议，与我们前几章中所介绍方法的主要不同之处在于，它们大多数都针对特定用例优化，而不是TCP所支持的任意复杂度的异构网络环境。QUIC可能是个例外，其最初目标是提升HTTP的性能，但现在已经发展成为一种通用的TCP替代方案。

本章将介绍其中某些具体用例，但并没有详尽包含所有可能选项。这些用例包括数据中心TCP性能调优；在较长时间段内仅用剩余容量传输背景流量；非TCP兼容的基于HTTP的web流量优化；以TCP友好的方式支持实时流；支持多路径传输协议；以及具有独特无线电诱导行为的移动蜂窝网络。

7.1 数据中心(DCTCP, On-Ramp)

有一些针对云数据中心的TCP优化工作，其中之一是数据中心TCP(Data Center TCP) ，数据中心环境的几个特点使我们可以采用不同于传统TCP的方法，这些特点包括:

数据中心内流量的往返时间较小；
数据中心交换机中的缓冲区通常也很小；
所有的交换机都在统一的管理控制之下，因此可以要求满足一定的标准；
大量流量具有较低的时延要求；
这些流量与高带宽流竞争；

应该注意的是，DCTCP不仅仅是TCP的一个版本，而是一种改变交换机行为和终端主机对从交换机接收到的拥塞信息的响应的系统设计。

DCTCP的核心观点是，在数据中心环境中使用丢包作为拥塞的主要信号是不够的。当队列已经积累到足以溢出时，低延迟流量已经无法满足其最低需求，因此会对性能产生负面影响。DCTCP使用ECN的一个版本来提供拥塞的早期信号。但是，ECN的原始设计将ECN标记处理得很像一个丢包，并将拥塞窗口缩短一半，而DCTCP采用了一种更精细的方法。DCTCP试图估算遇到拥塞的字节比例，而不是简单判断拥塞是否发生。然后，根据这个估算缩放拥塞窗口。同时标准TCP算法仍然在数据包实际丢失的情况下发挥作用。该方法的设计目的是通过提前对拥塞做出反应来保持队列较短，同时不对空队列做出过度反应，避免牺牲吞吐量。

该方法的关键挑战是估算遇到拥塞的字节比例。对于每个交换机来说计算都很简单，如果一个包到达，并且交换机看到队列长度(K)超过某个阈值，例如,

$\mathsf{K} > \mathsf{(RTT} \times \mathsf{C)\ /\ 7}$

其中C是每秒数据包的链路速率，然后交换机设置IP报头中的CE位。该算法避免了RED的复杂性。

然后，接收器为每个流维护一个布尔变量，我们将其表示为DCTCP.CE，并将其初始值设置为false。当发送ACK报文时，如果DCTCP.CE为true，接收端会在TCP报头中设置ECE (Echo Congestion Experienced)标志，并且实现了以下状态机来响应每一个收到的数据包:

如果设置了CE位，并且DCTCP.CE=False, 设置DCTCP.CE为True，并立即发送ACK。
如果没有设置CE位，并且DCTCP.CE=True, 设置DCTCP.CE为False，并立即发送ACK。
其他清空清空忽略CE位。

"其他"情况的非明显后果是，只要收到CE值固定的数据包流，接收端就会每n个数据包发送一次延迟ACK，延迟ACK已被证明对保持高性能非常重要。

在每个观察窗口(通常选择近似于RTT的周期)结束时，发送端计算在该窗口期间遇到拥塞的字节的比例，即标记为CE的字节与总传输字节的比率。DCTCP以与标准算法完全相同的方式增加拥塞窗口，但减小窗口的方式与上次观察窗口期间遇到拥塞的字节数成正比。

具体来说，引入一个名为DCTCP.Alpha的新变量并初始化为1，在观察窗口的最后更新如下:

TCP拥塞控制详解 | 7. 超越TCP

第7章 超越TCP

7.1 数据中心(DCTCP, On-Ramp)

第7章超越TCP