最新消息:滴滴 P0 事故原因基本确定到了

539 阅读1分钟

公众号「架构成长指南」,专注于生产实践、云原生、分布式系统、大数据技术分享。

最新消息滴滴P0故障原因,传闻是由于k8s集群升级导致的,后面没办法又进行版本回退,由于现在大型互联网公司基本都是基于K8s进行部署的,如果K8s集群一出问题,上面运行的业务Pod和运维系统全部都得宕机,从而导致没法快速回滚。

为什么会出现这个问题?

猜测可能对k8s的新版本一些变化没了解清楚,导致部署上去发现有些api作废,系统没法部署。

这种情况我们也遇到过,跟同行交流也遇到过类似问题,所以 k8s 集群升级一定要小心在小心

虽然滴滴有能力做二开,但是也可能会遇到这种问题,因为 k8s系统很复杂,我们之前使用阿里云的ACK,也是二开的,还是遇到一些棘手问题排查了2周才处理好。