在使用阿里云自建的kafka集群时,收到磁盘使用率超过80%的报警。
因为之前收到报警后通知运维增加磁盘容量,按目前公司kafka的流量来说,每天100w的数据量,4个150g的磁盘挂载,log日志保留7天,磁盘容量完全足以承受目前流量,不该出现磁盘沾满的情况。
从header节点登录到worker节点时,提示需要密码,咨询后通过以下方式登录
- 登陆master节点:ssh root@master-ip
- 登陆worker节点: su hadoop ssh <worker_host> 示例i: ssh emr-worker-1'
- Worker节点登陆其它Worker节点需要密码,即master密码
- Worker节点不能切换root用户,但可以通过sudo执行root权限,如查看进程,sudo jps
最终在worker节点df -h发现
几个挂载的磁盘数据量远远没有达到磁盘的容量,反而是挂载在根目录下的磁盘负载已达到85%
- 继续看根目录下挂载了哪些占用大的文件
- 是否删除一些大文件释放空间
最终在 /opt目录下发现发现了阿里的全家桶:
让我诧异的是kafka的集群中阿里云也将大数据全家福预装在里面,更可恶的是每个软件还有不同的版本号(我猜是他们迭代后老的版本一直遗留在里面)
在kafka/logs目录下找到从系统上线至今的日志全部保留,并不会自动rotate,但可优化的空间也只有2g+,眼看空间即将占满并没有多大的操作空间
于是乎查阅相关资料看到有方法说可以将 /opt目录挂载到别的更大容量的磁盘上,但不敢去尝试
最后工单的相关回答:
您好,header节点su hadoop,然后ssh emr-worker-1免密连接worker。emr是半托管集群,用户自己有root权限,相关磁盘数据清理都由用户自己做的。主服务一般不会有多个版本,通常不会自动升级,一些管控服务,比如工作流,agent等会有版本升级。看截图的容量没有特别大的,如果对空间有疑问,可以进入目录在看下。如果不确定文件是否可以删除,可以发截图给我们确认。