前言
大家好,我是JACK,一名服务器硬件测试工程师,拥有x86传统服务器(微软方向)及信创服务器(鲲鹏920+昇腾加速卡)的实测经验。
这个系列会从基础知识到实操记录,把我工作中的经验分享给大家,也帮自己系统梳理知识体系,适合刚入行的测试工程师或者对服务器感兴趣的朋友,一起成长!
一、服务器是什么
服务器是一台专门为其他设备提供服务的高性能计算机,和普通PC相比更强调稳定性、可靠性和持续运行能力,需要7×24小时不间断工作。我们日常使用的每一个APP背后,都有大量服务器在支撑。
二、服务器核心模块简介
计算类
CPU(处理器) 服务器的大脑,负责所有计算任务的处理和调度。服务器CPU核心数多、支持多路配置,常见有Intel至强、AMD EPYC,以及信创领域的华为鲲鹏920。
GPU(图形处理器) 最初为图形渲染设计,因强大的并行计算能力被广泛用于AI训练场景。代表产品有英伟达A100、H100系列。
NPU(神经网络处理器) 专门为AI推理和训练设计,比GPU更专注AI场景,功耗控制更好。代表产品是华为昇腾系列,我们测试的Atlas 300I就是典型的NPU加速卡。
FPGA(可编程加速芯片) 一种可以根据需求灵活编程配置的芯片,适合特定场景的定制化加速,常见于通信、金融等领域。
存储类
内存(RAM) 服务器运行时临时存放数据的地方,速度极快但断电后数据消失。服务器内存容量大,支持ECC错误纠正功能,保障数据准确性。
HDD(机械硬盘) 通过磁盘旋转读写数据,容量大、价格低,但速度较慢,适合海量冷数据存储。
SSD(固态硬盘) 无机械结构,读写速度远超HDD,稳定性更好,适合系统盘和热数据存储。
NVMe SSD 通过PCIe接口直连CPU,速度是普通SATA SSD的好几倍,是目前企业级服务器高性能存储的主流选择。
RAID卡/HBA卡 RAID卡负责管理多块硬盘组成阵列,提升性能和数据冗余保护;HBA卡则负责连接外部存储设备,扩展服务器存储能力。
硬盘背板 服务器内部连接硬盘和主板的中间板卡,提供硬盘的电源和数据接口,支持硬盘热插拔。
网络类
网卡(NIC) 负责把服务器接入网络,实现数据收发。服务器网卡带宽更高,常见10GbE、25GbE甚至100GbE,支持多端口和冗余绑定。
IB卡(InfiniBand) 一种高带宽、极低延迟的网络接口卡,主要用于高性能计算(HPC)和AI训练集群中服务器之间的高速互联。
光模块 将电信号转换为光信号进行远距离传输,是数据中心高速网络连接的重要组件,常见有25G、100G、400G等规格。
主板及芯片类
主板/核心板 服务器的核心载体,提供CPU、内存、PCIe等插槽,连接所有模块协同工作,是整台服务器的基础平台。
BMC芯片 内置在主板上的独立管理芯片,即使服务器关机也能工作,支持远程开关机、故障监控、日志查看等功能,是服务器运维的重要工具。
BIOS/UEFI固件 服务器开机时第一个运行的程序,负责初始化硬件、自检,并引导操作系统启动。服务器的BIOS配置对性能和稳定性影响很大。
PCIe扩展槽 主板上的高速扩展接口,用于安装GPU、NPU、网卡、RAID卡等扩展卡,PCIe版本越高带宽越大,目前主流是PCIe 4.0和5.0。
供电类
电源(PSU) 为服务器所有模块提供稳定供电。服务器通常配备冗余电源,支持热插拔,一块故障时另一块立即接管,保障业务不中断。
电源背板 连接电源模块和主板的中间板卡,负责电源的分配和管理,同时支持电源热插拔功能。
散热类
风扇模组 服务器主要散热方式,采用高转速风扇强制风冷散热,通常支持热插拔和转速自动调节,根据温度智能控速。
CPU散热器 直接安装在CPU上的散热组件,通过导热将CPU热量传递给风扇散出,保障CPU在安全温度范围内稳定工作。
液冷系统 通过液体循环带走热量,散热效果远优于风冷,适合高密度、高功耗的服务器,是数据中心未来散热的重要趋势。
三、各模块如何协作
一个完整的请求过程:网卡接收数据 → 加载到内存 → CPU调度处理 → 如涉及AI推理则调用NPU加速 → 结果通过网卡返回。全程电源持续供电,主板连接协调所有模块,BMC实时监控硬件状态,散热系统保障温度稳定。
四、总结
以上是服务器各核心模块的简要介绍,后续我会针对每个模块单独展开详细讲解,包括工作原理、测试方法和实操经验。
本系列后续文章预告:
- CPU详解——以鲲鹏920为例
- 内存详解——ECC、频率、容量怎么选
- 存储详解——HDD、SSD、NVMe全解析
- 网卡详解——带宽、协议、选型指南
- NPU详解——昇腾加速卡实测经验
敬请期待,欢迎关注JACK的服务器笔记!