卡片分享:降低故障时长、提高系统可用时间

35 阅读1分钟

20240329@降低故障时长、提高系统可用时间

监控

系统监控包括: 业务监控(业务日志)、 服务监控(qps、慢查询之类)、 基础监控(cpu这些)。

告警

合理划分告警等级; 控制告警周知人的范围; 控制告警频次数量。

上线规范

关键是,要有『回滚方案』。

无脑预案

无脑预案要尽可能的简单,无需思考去执行。 预案要share,去单点化。

故障演练

主要用来验证无脑预案可行性和简单度、执行熟练度。

来源: 说透大厂 Java 项目场景面试题 - 托尼学长 - 掘金小册

推荐标签:

#source/托尼学长
#求职/面试/考察频度0/八股文

相关卡片:

[[20240512@服务降级与服务熔断的区别]]