话说你们负责的服务可用性是几个9?刚入我司的时候记得面试官(后来的leader)说我们服务的HA是五个9,不过经过这一年多时间的观察,五个9的表现还是差一点([捂脸]没有吹毛求疵的意思)。因为现在服务基本都是分布式部署的微服务,且都支持自动scale out(不需要运维同学手动重启了[泪奔]),所以基本不会有单点故障。拿我负责的服务来说,不可用的时间基本都是发生在服务重启的时候(pod资源超限被自动重启等),重启的时候服务节点减少,集群的负载能力减小,造成部分接口超时,具体表现就是会有10秒左右的告警;即使服务可以做到快速重启,最先打过来的流量由于jvm并未预热也是会有一些timeout。
展开
Running的程序员于2022-09-18 09:16发布的图片
2