调试几年前开发的一个项目,发现运行几个小时,突然没数据了,然后,开始找问题。
- 问题1:资源有限,所以机器的集群几乎是满负荷跑。开始猜想是资源不够,JVM的GC的问题。
- 问题2:消息数据没有发过来
- 问题3:数据没有写入hbase
- 问题4:离线任务由于资源有限,没有正常完成
所以,关了几个任务,只跑实时的任务,发现任务正常,消息证明正常。但是,启动离线后,实时离线任务一起跑,又挂了。。。
没办法,搜日志吧
SASL的问题?关键是跑了4个小时,一直都正常,突然挂了,为什么呢?
在网上搜问题,官方搜问题,有人说到版本不一致,我看了下,只是一个小版本,应该没啥问题。 但是宁可信其有,不可信其无,还是更改了版本。但是呢?问题依然存在,跑4个小时,挂。。。 无语了。。。
打包的过程中,发现cdh官方限制某些包的下载,为什么限制呢?难道包他们做了改动,比如在上面从新封装了一层,用原生的试试?
打完包后,明显大小不一样
再次启动,完美运行。 总结,CDH真坑,埋点真多。。。