排查 - 大量慢 rpc 导致 NN 性能下降问题

281 阅读1分钟

问题定位

1.收到报警,查看监控指标,发现 namenode 机器出吞吐量暴增

2.登陆机器,定位流出到某个机器的流量最大。

3.获取该机器的 ip,查看审计日志,发现有个账号在大量扫描一个目录

4.查看该 HDFS 目录(目录下有 20w+ 子目录, 一次 listStatus 的时间很长)

5.找到相应业务,由于上线速度慢。先回收掉目录权限,让请求快速失败。再次观察指标,迅速下降

6.分析业务代码,发现是调用的 python 库,做大量的上传日志操作,upload 方法会检测目标路径的状态。

7.协助业务,重新规划 HDFS 目录使用逻辑。