记一次生产事故:系统崩溃,三百多号人被堵在公司大门口的这件事

145 阅读2分钟

如题所示

在这里插入图片描述

一次重大的事件,还好最后在大家伙的努力下抢修了回来。

事情是这样的,我负责的系统是一个OA系统,原来用的是钉钉的oa,后面为了公司的管理,我们自己开发了一个oa系统,慢慢的把原来在钉钉oa中的流程给迁移到我们公司的oa上面来,首当其冲,接口顶不住了。。。。 一直卡在任务的查询页面,导致公司300多号人的通行证没有能够及时审批,公司群炸了。。。 在这里插入图片描述 炸了。。。。

接着马上打开后台相关的几个微服务日志查看,找了快一个小时,但是并没有找到什么问题,疯了!!外面还有那么多人在门口等着呢!! 千钧一发之际,我们决定去前端寻找问题,结果发现一个接口一直在报错,但是我们看了后台地址是有东西返回的,结果让前端去看一下怎么回事, 好家伙,您猜怎么着?

居然是接口超时了,前端默认设置的是十秒中还没有数据返回就会报错,所以系统并没有报错,而是接口等的时间很长, 从而导致了用户以为报错了,就一直点,就这样,接口就卡在那里一直处理请求,我们决定优化的事情以后在搞,先把前端超时的问题解决!! 由于是在线系统,第一时间先恢复正常运行,结果马上改了前端的超时报错,将他延长至5分钟!!

在这里插入图片描述

后面我们慢慢再优化代码,直到我发布这篇博客时,我们的微服务已经增加了好几个从节点,这样系统的并发量就会高很多,同时我们也会优化我们的 接口代码,从而承载更高的并发。。