CM监控、告警

807 阅读1分钟

1、CM告警排障

1.1、CM 请求Service Monitor 超时

CM 首页里的图表无数据,提示“请求 Service Monitor 超时”

【处理方法】以 Admin 身份登录 CM,找到首页左下方的 Cloudera Management Service。先点击左侧的黑色倒三角,再点击“重启”,最后刷新网页。等约 1 分钟,CM 即可恢复正常。

1.2、批量检查节点是否可ping

在 CM 里看到有节点与 CM 失去联系后,为了确定是不是硬件侧的故障, 我们需要先去 ping 目标主机,然后再视情况反馈给硬件侧。

根据集群实际情况,把集群各节点的主机名和IP分别保存在文件中,写脚本批量ping集群各节点排查。

1.3、CM卡慢情况排查

CM页面操作很慢,检查发现某主机CPU使用爆满,具体查看xxx服务器情况,本主机是 4 核,系统负载达到 6 以上, 明显负载很高,发现名字为 kdevtmpfsi 的进程占用 400%的 CPU 资源。

杀死此进程的守护进程、以及被自动添加的定时调度

删除进程相关目录

查看系统负载已经降低

再次操作 CM,响应速度变的很快了,集群 CPU 整体负载大大降低

各个主机 CPU 负载大大降低

2、触发器配置(参考)

2.1、HDFS容量监控

2.2、打开文件数超过阈值告警触发器\

2.3、主机CPU 使用率告警
\