微服务监控实战(五):健康检查及总结

85 阅读3分钟

如果你觉得这篇文章对你有帮助,请不要吝惜你的“关注”、“点赞”、“评价”、“收藏”,你的支持永远是我前进的动力~~~

健康检查

image.png

监控闭环

image.png

监控系统的两大功能

监控系统具有两大功能,体检和急诊

体验

容量管理:提供一个全局的系统运行时数据的展示,可以让工程师团队知道是否需要增加机器或者其它资源

性能管理:可以通过查看大盘,找到系统瓶颈,并有针对性地优化系统和相应代码

急诊

定位问题:可以快速地暴露并找到问题的发生点,帮助技术人员诊断问题

性能分析:当出现非预期的流量提升时,可以快速地找到系统的瓶颈,并可以帮助开发人员深入代码

image.png

当一台机器挂掉是因为CPU或I/O过高、SQL 操作过慢、消息队列拥塞的时候,我们马上可以知道其会影响到哪些对外服务API。

当一个服务响应过慢的时候,我们马上能关联出来是否在做 Java GC,或是其所在的计算结点上是否有资源不足的情况,或是依赖的服务是否出现了问题。

一旦发现某个服务过慢是因为CPU使用过多,我们就可以做弹性伸缩

一旦发现某个服务过慢是因为MySQL出现了一个慢查询,做流量限制或降级操作了

所以,一个分布式系统,或是一个自动化运维系统,或是一个Cloud Native 的云化系统,最重要的事就是把监控系统做好。在把数据收集好、关联好。这样,我们才可能很快地定位故障进而才能进行自动化调度。

人才评价和企业文化

image.png

人们都喜欢听“英雄救美”、“单骑救主”的故事,人性使然。

殊不知,治安良好的社会才是人们安稳生活最强有力的保障

从“扁鹊三兄弟的故事”的事故中,可以得出一些启示,同时也要有相应的企业文化支持

启示一:要建立“防患于未然”的事前控制机制。扁鹊三兄弟的故事,集中体现了事前控制、事中控制和事后控制三种模式

启示二:要有肯定“无名英雄”的企业文化。人们都喜欢听“英雄救美”、“单骑救主”的故事,人性使然。殊不知,治安良好的社会才是人们安稳生活最强有力的保障。当然,扁鹊式的“救火英雄”也很值得尊敬,他们是应对突发事件的最后一道“防火墙”,往往可以挽狂澜于即倒,扶大厦之将倾,将突发事件的危害降低到最小程度,保护企业和员工的人身财产安全。

启示三:要有科学的人才评价机制。从历史评价结论来看,扁鹊医术最高明,名垂青史,被尊为神医,而扁鹊的两个哥哥则湮没在历史的长河中,默默无闻,不为后人所知。这是我们“注重结果、忽视过程”的思维习惯和价值取向得出的结论。如果没有一套科学的人才评价机制,只会埋没真正的人才。