技术学习总结 07 | 青训营

86 阅读1分钟

二、网络稳定

①   容灾概念:故障发生、故障感知、自动切换、服务恢复

以下是网络容灾的情况之一:

image.png

②   故障排查:故障明确、故障止损、分段排查

③   故障明确(出现什么故障?→沟通是前提):

(1)       什么业务?什么接口故障?

(2)       故障体现在哪里?

(3)       访问其他目标是否正常?

(4)       是否是修改导致的异常?

④   故障止损

(1)       先止损再排查,因为:①用户体验第一  ②对公司收入的影响是按照分钟甚至秒来计算

(2)       如何止损?①组件没有容灾,但是系统有  ②降级

⑤   分段排查

(1)       客户端排查:

①   客户端访问其他服务没问题吗?

②   其他客户端访问目标服务没问题吗?

(2)       服务端排查:

①   服务端监控/指标都正常吗?

②   手动访问一下正常吗?

③   分组件排查

(3)       中间链路排查:

①   服务端跟客户端确保都没问题

②   中间网络设备有没有问题?(例如:交换机/路由器/网关LB)

③   旁路的DNS有没有问题?

⑥   网络故障排查常用指令:

(1)       dig:查询DNS问题

(2)       ping/telnet/nmap:查询三层四层连通性

(3)       Traceroute:排查中间链路

(4)       iptabels

(5)       tcpdump

以下是某些网络故障排查实例:

image.png

image.png ⑦   故障预防:(1)监控报警 (2)故障演练/预案 (3)故障降级/止损

image.png