二、网络稳定
① 容灾概念:故障发生、故障感知、自动切换、服务恢复
以下是网络容灾的情况之一:
② 故障排查:故障明确、故障止损、分段排查
③ 故障明确(出现什么故障?→沟通是前提):
(1) 什么业务?什么接口故障?
(2) 故障体现在哪里?
(3) 访问其他目标是否正常?
(4) 是否是修改导致的异常?
④ 故障止损
(1) 先止损再排查,因为:①用户体验第一 ②对公司收入的影响是按照分钟甚至秒来计算
(2) 如何止损?①组件没有容灾,但是系统有 ②降级
⑤ 分段排查
(1) 客户端排查:
① 客户端访问其他服务没问题吗?
② 其他客户端访问目标服务没问题吗?
(2) 服务端排查:
① 服务端监控/指标都正常吗?
② 手动访问一下正常吗?
③ 分组件排查
(3) 中间链路排查:
① 服务端跟客户端确保都没问题
② 中间网络设备有没有问题?(例如:交换机/路由器/网关LB)
③ 旁路的DNS有没有问题?
⑥ 网络故障排查常用指令:
(1) dig:查询DNS问题
(2) ping/telnet/nmap:查询三层四层连通性
(3) Traceroute:排查中间链路
(4) iptabels
(5) tcpdump
以下是某些网络故障排查实例:
⑦ 故障预防:(1)监控报警 (2)故障演练/预案 (3)故障降级/止损