排查 - 大量慢 rpc 导致 NN 性能下降问题2.登陆机器，定位流出到某个机器的流量最大。 5.找到相应业务，由于上

问题定位

1.收到报警，查看监控指标，发现 namenode 机器出吞吐量暴增

2.登陆机器，定位流出到某个机器的流量最大。

3.获取该机器的 ip，查看审计日志，发现有个账号在大量扫描一个目录

4.查看该 HDFS 目录（目录下有 20w+ 子目录, 一次 listStatus 的时间很长）

5.找到相应业务，由于上线速度慢。先回收掉目录权限，让请求快速失败。再次观察指标，迅速下降

6.分析业务代码，发现是调用的 python 库，做大量的上传日志操作，upload 方法会检测目标路径的状态。

7.协助业务,重新规划 HDFS 目录使用逻辑。