开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第24天,点击查看活动详情
计算时代,大量计算、存储资源在服务器之间横向流动。承担服务器与服务器数据传输工作的交换机,自然成了数据中心的“神经枢纽”。
,那万一交换机出故障,数据中心内部岂不是“断网”了吗?😱服务器和服务器无法对话,上层业务轻则响应变慢,重则中断。
数据中心网络传统采用TCP传输协议,虽然能保证稳定可靠地传输数据,但延时大、占用系统资源高,且采用单路径路由,对网络故障的容忍度低。
为此,行业纷纷基于UDP协议展开新型网络协议的探索。UDP协议虽然速度快,但可能产生“丢包”,不能确保数据百分百送达。
HARP在每个连接内采用多路径传输,每条路径有独立的拥塞探测能力。
基于自研拥塞控制算法优良的网络控制和感知能力,HARP的路径管理模块会根据路径的拥塞情况进行调度,快速可靠地检测到路径故障,并在100微秒时间内重新探测一条新的可用路径,保证在单个交换机故障时的断链概率为0。
相比起TCP遭遇故障的典型重连恢复时间(约为1s),HARP减少了99.9%。
高可用”只是解决了服务可靠性的问题。比如腾讯云的云硬盘服务采用HARP后,即使网络发生故障,上层业务仍然可用并且性能抖动小。
同时,HARP也通过共享连接、软硬件分层、自研拥塞控制算法等技术设计,应对数据中心应用规模和需求不断发展带来的挑战。
- 高可扩展
HARP通过共享连接大幅减少连接数量,实现高度的可扩展性,轻松支持10000+节点的大规模组网。
具体方式上,HARP支持裸连接、云服务器级共享、物理服务器级共享等粒度的连接模式,用以满足裸金属云服务器、云服务器、云硬盘、高性能计算(HPC)等多种业务环境的使用需求和大规模组网要求。
- 高带宽
HARP采用软硬件分层的事务层和可靠传输层设计,分工明确:硬件负责需要高效和可靠传输的报文级事务;软件部分则提供高度灵活、贴合业务特性需求的消息处理,而不占用昂贵的硬件资源。
最终,HARP可以支持在10K+节点的网络规模的业务中,提供200Gbps的最高性能输出,对于AI训练、键值存储、分布式大数据应用等场景具有独特价值。
- 低延时
HARP采用自研的拥塞控制算法PEAD,精确地感知网络拥塞,在维持高吞吐的同时,保证网络流的通畅。
相较于TCP,HARP消息完成时间的中位数降低了35%,同时保证99%数据包的网络排队时延降低90%。