公众号「架构成长指南」,专注于生产实践、云原生、分布式系统、大数据技术分享。
最新消息滴滴P0故障原因,传闻是由于k8s集群升级导致的,后面没办法又进行版本回退,由于现在大型互联网公司基本都是基于K8s进行部署的,如果K8s集群一出问题,上面运行的业务Pod和运维系统全部都得宕机,从而导致没法快速回滚。
为什么会出现这个问题?
猜测可能对k8s的新版本一些变化没了解清楚,导致部署上去发现有些api作废,系统没法部署。
这种情况我们也遇到过,跟同行交流也遇到过类似问题,所以 k8s 集群升级一定要小心在小心
虽然滴滴有能力做二开,但是也可能会遇到这种问题,因为 k8s系统很复杂,我们之前使用阿里云的ACK,也是二开的,还是遇到一些棘手问题排查了2周才处理好。