降本增笑,阿里云的数据库管控又崩了

39,161 阅读4分钟

最近阿里巴巴为大家枯燥的生活带来了不少谈资,大家笑称为“降本增笑”。

先是10月23日语雀接近8个小时的宕机,然后是11月12日阿里云底层授权模块接近3个小时的服务不可用,今天(11月27日)又是接近2个小时的数据库管控故障,每两周一次故障,偶尔的一次还能说的过去,这么频繁的故障,发故障公告的同学可能也觉得头皮发麻了!

WechatIMG96.jpeg

伴随着阿里云的频繁报障,大家对阿里云的信任进一步降低,之前卖力宣传的自主云难道就是这个水平。我这个10年的阿里云用户,也不免心生疑虑,阿里云要不行了吗?要不要把之前自有的Redis集群再搞起来?要不要试试多云部署?

最近几年有一个下云的技术潮流,核心思想就是云服务太TM贵了,下云之后节省的不是一点半点。当然下云也有下云的问题,硬件和软件都要搞起来,得能自己玩的转,不过现在有K8S,一般企业用这个就可以快速搭建起自己的私有云,如果用这个还有问题的话,绝对不是一般企业,技术牛人招过来基本也能解决。

不过这也不是说所有的企业都适合下云,新成立的企业,云成本比较低的企业,选择公有云还是一个比较靠谱的方案,对于新企业最重要的是把业务跑通,获取稳定的盈利,然后才是降本增效,考虑要不要搞个私有云,而不是一上来就铺个大摊子。

对于使用私有云的企业,很多也不是完全放弃了公有云,而是混合使用,站在成本的角度,企业往往会有一些突发的计算需求,公有云能提供更灵活的计算资源,时常用一下还是挺不错的。

这两次出现故障的方面都在管控程序,服务器实例,数据库实例、存储实例运行的还比较正常,所以如果你使用公有云,又想不被它牵制的太多,只使用最基础的服务可能也是一种比较好的策略,比如只使用云服务器,其它数据库、文件存储都采用成熟的开源方案。当然这需要具备一定的技术维护能力。

如何使用公有云,大家要三思而后行。

原因

对于阿里频繁技术故障背后的原因,有网友归结为阿里的大规模裁员,有网友根据阿里的财报数据估算,近9个月内,阿里减少了1.5万人。结合互联网行业广泛存在的35岁现象,很多人认为大量有着丰富经验的程序员都被裁员毕业了,剩下的都是一些经验不怎么足够的小年轻,所以故障就不可避免的出现了。裁员本为降本,却一不小心让大家看了笑话,此所谓降本增笑。

还有网友们对阿里文化的吐槽,高P员工热衷于搞一些概念PPT、PUA下属,所有工作都扔给下级能力不怎么强的低P员工,不了解底层和实现,出了问题就杀两个程序员祭天。

以上大概就是大家认为的阿里云频繁出现故障的原因。但真的是这样吗?

咱们先看下裁员问题。阿里虽然裁掉了很多人,但是也没有超过10%,一个10人的团队,怎么也得有两三个技术比较牛的大佬吧,所以不至于没人顶得上。再说如果真的缺少某方面的技术能力,阿里应该还是能通过招聘解决的。

再看文化的事,这个就很难说了,文化确实能影响一个公司的成败。

如果管理者每天醉心于新思路、新概念,只关注上线进度,开发人员可能就会在各种deadline之间疲于奔命,让他们能吃透业务、搞清楚各种概念之间的关系,可以说是痴人说梦,有时他们甚至会舍弃一些技术指标,因为他们想的可能是赶紧把迭代完成,千万别影响了个人和团队绩效,哪有时间认真思考技术决策,程序就可能越写越乱,相互冲突,相互耦合,难以维护,容易出问题,而且出了问题不好解决,当这个情况累计到一定的程度,问题就开始猛烈而频繁地爆发出来了。

技术的问题自然可以解决,只是市场和用户留给阿里云的时间还有多少?

如果真的是管理或者文化上的问题,阿里云有没有自我革新的力量?


关注微/信/公/众\号萤火架构,提升技术不迷路!