记一次线程泄露排查

293 阅读1分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

介绍

服务正式上线到阿里云EDAS时,一个Tomcat里面部署war包的pod频繁被OOMKilled然后重启,但是pod给了4G内存,tomcat的初始堆给了1G,最大堆1.5G,但据阿里云的监控观察,pod占用内存竟然达到了恐怖的3.2G,一次简单的访问后内存又增长了200M

解决方案

为方便进行性能监控,找了一个基于centos+arthas做的基础镜像,再把我们的tomcat和war包加到里面,创建新的镜像后使用新的镜像重启pod,

kubectl exec -it pod名称  bash
java -jar arthas-boot.jar  启动arthas
heapdump --live /root/jvm.hprof  #打印堆栈信息
dashboard #观察GC次数
logger   #取hash码
logger -c  hashcode  --name ROOT --level INFO  #修改日志等级
jps
top -H -p pid   #查看进程对应的线程数
jstack  pid > /root/thread.dump
kubectl cp  pod名称:/root/thread.dump  ./
kubectl cp   pod名称:/root/jvm.hprof  ./