在数据中心基础设施中,负载均衡是一项极其关键的能力。几乎所有互联网服务、企业应用和云平台,都依赖负载均衡来实现流量分发、系统扩展和高可用。在很多人的印象中,负载均衡往往与专用硬件设备联系在一起,例如来自 F5 Networks 的 BIG-IP 系列产品。
然而,如果从整个技术发展历程来看,就会发现一个非常清晰的趋势:负载均衡正在从专用硬件逐渐走向软件实现。在互联网行业,这一变化已经基本完成;而在越来越多的企业数据中心中,这一趋势也正在加速发生。
那么,一个曾经高度依赖专用设备的基础设施能力,为什么最终会走向软件化?要回答这个问题,需要从负载均衡技术的发展历程说起。
一、负载均衡最初以专用硬件设备为主
在互联网早期,负载均衡主要以专用硬件设备的形式存在。这类设备通常被称为 ADC(Application Delivery Controller)。典型厂商包括:
- F5 Networks
- Radware
- Citrix
这些设备通常部署在数据中心网络入口位置,负责将外部流量分配到后端服务器。由于集成了专用硬件平台以及成熟的软件系统,这类设备在早期企业数据中心中得到了广泛应用。
在那个阶段,硬件负载均衡具有明显优势。例如:
- 设备形态成熟,运维模式清晰
- 硬件平台稳定可靠
- 功能集成度较高
因此,在很长一段时间里,专用硬件负载均衡设备几乎是企业网络架构中的标准组件。
然而随着互联网行业的快速发展,这种模式逐渐暴露出一些局限。
二、互联网规模推动软件负载均衡出现
互联网业务具有一个非常突出的特点:规模增长极快。当服务规模从几十台服务器增长到数千台甚至更多时,传统硬件负载均衡设备在扩展能力上开始显得不够灵活。
硬件设备通常依赖“纵向扩展”的方式来提升性能,例如升级到更高型号设备。但互联网系统更需要的是“横向扩展”,即通过增加节点数量来提升整体处理能力。
在这样的背景下,软件负载均衡逐渐兴起。1998年,章文嵩博士发起了 LVS(Linux Virtual Server)项目。通过在标准服务器上运行负载均衡软件,就可以实现类似硬件设备的流量分发能力。
LVS 的出现具有重要意义:
- 不再依赖专用硬件
- 可以部署在普通服务器上
- 支持大规模横向扩展
随着时间推移,LVS 很快成为互联网公司最常用的四层负载均衡方案,并在大规模生产环境中得到广泛应用。
三、应用层流量处理催生四层七层分离
随着互联网业务继续增长,仅依赖四层负载均衡已经无法满足所有需求。越来越多的应用需要基于HTTP 等应用层协议进行流量处理,例如:
- URL 路由
- Header 转发
- HTTPS 终止
在这种背景下,七层负载均衡逐渐成为重要组件。其中,Nginx 逐渐成为互联网公司广泛使用的七层负载均衡软件,被大量用于 HTTP 和 HTTPS 流量处理。
在实践中,很多互联网公司逐渐形成了这样一种架构:
- 四层负载均衡:基于 LVS 或类似系统
- 七层负载均衡:基于 Nginx 等软件
这种架构通常被称为“四层七层分离”。四层系统负责高性能流量转发,而七层系统负责复杂的应用层逻辑处理。
随着业务规模进一步扩大,一些大型互联网公司开始研发自己的负载均衡系统。例如,百度研发了新一代企业级四层负载均衡系统BGW和七层负载均衡系统 BFE,以更好地满足大规模生产环境对性能、稳定性以及可运维性的要求。
随着软件技术的发展,这些软件系统在性能方面不断提升。借助高性能网络技术,例如 DPDK等技术,四层负载均衡系统在单台服务器已经能够处理数十Gbps甚至更高的网络流量。
这意味着在绝大多数数据中心场景中,软件负载均衡已经能够达到与专用硬件设备相当的性能水平。
四、软件化带来的技术优势
当软件负载均衡在功能和性能方面逐渐成熟后,其优势开始逐步显现。
扩展能力更强
软件系统天然适合横向扩展。当流量增长时,只需要增加新的服务器实例即可提升整体处理能力。
升级和迭代更容易
软件系统可以采用成熟的软件发布方式,例如滚动升级或蓝绿部署,从而在不中断服务的情况下完成版本升级。
自动化和可运维性更强
软件负载均衡通常提供 API 接口,便于自动化运维和系统集成。同时,软件系统能够提供更加丰富的监控指标和运行状态信息,从而帮助运维人员更全面地了解系统运行情况。
五、云计算进一步推动软件化
近年来,云计算和云原生技术的发展进一步加速了负载均衡的软件化进程。
在云平台中,用户通常可以通过 API 或控制台随时创建和销毁负载均衡实例。这种“按需创建”的能力,很难通过传统硬件设备实现。
云平台的负载均衡服务,本质上都是大规模的软件系统。例如:
- Amazon Web Services 的 ELB
- Google 的 Cloud Load Balancing
与此同时,在 Kubernetes 等容器平台中,服务实例会频繁创建和销毁,负载均衡系统需要能够动态感知这些变化并及时更新路由规则。
这些需求进一步强化了软件实现的优势。可以说,在云原生环境中,负载均衡已经完全成为软件基础设施的一部分。
六、AI时代进一步强化软件化
随着人工智能技术的发展,数据中心正在发生新的变化。越来越多的企业开始部署大模型推理服务,这些服务对流量调度提出了全新的要求。
在传统互联网应用中,负载均衡主要解决的是请求分发问题。而在 AI 推理场景中,系统还需要考虑更多因素,例如:
- GPU 资源的使用情况
- 不同模型实例的负载状态
- 推理任务的类型和规模
因此,系统往往需要根据这些信息进行更加复杂的调度决策。
在这种背景下,AI网关(AI Gateway)逐渐成为连接用户请求与模型服务的重要组件,承担着流量接入、路由和调度等功能。这些能力在本质上仍然属于负载均衡技术的延伸,但实现方式更加依赖软件系统。
可以看到,在AI时代,流量调度不仅需要处理更加复杂的业务逻辑,还需要与计算资源管理、模型调度等系统深度协同。这些需求进一步强化了负载均衡的软件化趋势。
七、结语
回顾负载均衡技术的发展历程,可以看到一条从专用硬件到软件系统的清晰演进路径。互联网规模的扩大、云计算的普及以及云原生架构的发展,都在不断推动这一变化。
在新的技术环境中,负载均衡已经不再只是一个简单的网络设备,而是数据中心基础设施的重要组成部分。随着业务形态的持续演进以及人工智能应用的快速发展,未来的流量管理将更加依赖灵活、可编程的软件系统。
因此,从长期来看,负载均衡走向软件化并不是一时的技术选择,而是整个计算基础设施发展过程中的必然趋势。
作者简介
章淼,博士,1994年进入清华大学计算机科学与技术系学习,2004年获得博士学位,2004年至2006年在清华大学留校任教,在清华期间曾参与中国第一代核心路由器的研制工作。2012年起在百度工作超过十年,聚焦云网络基础架构的研发工作,是BFE开源项目的发起人。在百度期间积极推动软件工程能力提升,曾担任百度代码规范委员会主席,2021年10月被授予百度代码规范委员会荣誉主席。2022年出版《代码的艺术:用工程思维驱动软件开发》。2023年4月起担任瑛菲网络CEO,聚焦研发面向云和大模型场景的现代化流量管理平台。