问题排查步骤思路

68 阅读1分钟

一、服务器

1、服务器空间还有多少G?

2、CPU还剩多少?

3、内存是否高?

4、线程是否异常?

二、应用

2.1、接口

1、慢接口
2、调用量变化
3、昨天晚上上了什么版本

2.2、定时任务

1、同时刻启动定时任务太多
2、定时任务配置线程数是否太多
3、是否打印大对象日志

三、消息

1、消息阻塞

四、日志

1、报错日志

五、数据库

1、慢SQL
2、大SQL 一次性查询数据量太大

六、缓存

1、是否击穿直接落库了
2、

七、网络

1、和外部交互的网络是否通畅
2、IP是否有变更,是否有白名单

处理后:

1、是否需要修数据,比如下单成功未冻结库存
2、重试处理,比如定时任务,执行失败,需要重试