大家好,我是砸锅。一个摸鱼八年的后端开发。熟悉 Go、Lua。今天和大家一起学习分布式技术😊
开启掘金成长之旅!这是我参与「掘金日新计划 · 2 月更文挑战」的第 22 天,点击查看活动详情
故障恢复
故障的评估标准
故障的评估指标:
- 平均出现故障的频率,越低越好
- 平均故障恢复的时间,这个时间越短越好
对可能出现故障的地方增加多个预案,通过增加一个中间层来进行调度,对外屏蔽这些问题,从而达到快速恢复故障的目的
主动故障分为四个原因:程序发布变更、实例数目变更、配置发布变更和运营策略变更。变更信息最少要包含,时间维度的视图和支持按服务或系统维度的查询。因为一般来说,故障能提供给我们最关键的信息就是这两个:发生故障的时间和位置,所以我们需要通过这两个信息来定位相关的变更信息
此文章为2月Day18学习笔记,内容来源于极客时间《深入浅出分布式技术原理》