问题定位
1.收到报警,查看监控指标,发现 namenode 机器出吞吐量暴增
2.登陆机器,定位流出到某个机器的流量最大。
3.获取该机器的 ip,查看审计日志,发现有个账号在大量扫描一个目录
4.查看该 HDFS 目录(目录下有 20w+ 子目录, 一次 listStatus 的时间很长)
5.找到相应业务,由于上线速度慢。先回收掉目录权限,让请求快速失败。再次观察指标,迅速下降
6.分析业务代码,发现是调用的 python 库,做大量的上传日志操作,upload 方法会检测目标路径的状态。
7.协助业务,重新规划 HDFS 目录使用逻辑。