1. 选择支持RDMA的云服务器实例
在控制台选择以下机型:
- 裸金属服务器:如BM4.20XLARGE(搭载Mellanox CX5网卡)
- GPU实例:如GN10Xp(NVIDIA V100+100Gbps RDMA)
注意选择相同可用区以保证物理网络拓扑最优。
2. 安装RDMA驱动与工具链
CentOS示例
yum install -y rdma-core libibverbs-utils infiniband-diags modprobe ib_umad ibv_devinfo # 验证网卡识别
3. 配置RoCEv2网络参数
优化关键参数以实现稳定低延迟:
echo "options mlx4_core log_num_mgm_entry_size=-1" > /etc/modprobe.d/mlx4.conf sysctl -w net.ipv4.tcp_ecn=1 sysctl -w net.ipv4.conf.default.rp_filter=2
4. 网络拓扑与QoS设置
- 使用
ibnetdiscover检查交换机连接状态 - 通过
mlnx_qos配置流量优先级(PFC和ECN) - 建议启用DCQCN拥塞控制算法