Arthas实践——生产环境排查CPU飚高问题

2,899 阅读3分钟

生产环境CPU告警:

 13:40 收到我们的生产环境服务器绿版CUP超负载告警通知。

在这里插入图片描述

执行top发现进程30247和28337占用CPU为200多和100多基本占用了4核的3核。

在这里插入图片描述

Arthas排查过程:

1、开启Arthas工具找到对应的30247运单模块和28337支付模块,选择运单模块进入:

java -jar arthas-boot.jar

2、执行dashboard命令,线程35和12042不正常CUP 占用49%:

dashboard

3、执行 thread 35  thread 12042定位代码行:

thread 35
thread 12042

4、查看代码,业务需求为生成一个至少包含2个数字的随机字符串,我们使用的统一的工具类方法,该方法中先通过UUID.randomUUID()随机出一个10位的字符池,然后再从这个字符池中随机需要位数的字符串,如果随机出来的10位字符池中都是字母,则二次随机时候就会出现死循环,问题代码如下:

public static String getRandomStr(boolean numberFlag, int length) {
    String retStr = "";
    String strTable =
        numberFlag
            ? UUID.randomUUID().toString().replaceAll("-", "").substring(0, 10)
            : "1234567890abcdefghijkmnpqrstuvwxyz";
    int len = strTable.length();
    boolean bDone = true;
    do {
      retStr = "";
      int count = 0;
      for (int i = 0; i < length; i++) {
        double dblR = Math.random() * len;
        int intR = (int) Math.floor(dblR);
        char c = strTable.charAt(intR);
        if (('0' <= c) && (c <= '9')) {
          count++;
        }
        retStr += strTable.charAt(intR);
      }
      if (count >= 2) {
        bDone = false;
      }
    } while (bDone);

    return retStr;
  }

5、线下模拟不到二万次UUID.randomUUID()前十位会出现一次全字母的情况。

6、最终原因是死循环导致的CPU飚高,修复代码,增加是否都是字母的判断,第一次随机出来的10位字符池都是字母,则重新随机。

Arthas常用命令:

安装:

curl -O arthas.aliyun.com/arthas-boot…
java -jar arthas-boot.jar

基础命令

help——查看命令帮助信息
cat——打印文件内容,和linux里的cat命令类似
echo–打印参数,和linux里的echo命令类似
grep——匹配查找,和linux里的grep命令类似
tee——复制标准输入到标准输出和指定的文件,和linux里的tee命令类似
pwd——返回当前的工作目录,和linux命令类似
cls——清空当前屏幕区域
session——查看当前会话的信息
reset——重置增强类,将被 Arthas 增强过的类全部还原,Arthas 服务端关闭时会重置所有增强过的类
version——输出当前目标 Java 进程所加载的 Arthas 版本号
history——打印命令历史
quit——退出当前 Arthas 客户端,其他 Arthas 客户端不受影响
stop——关闭 Arthas 服务端,所有 Arthas 客户端全部退出
keymap——Arthas快捷键列表及自定义快捷键

jvm相关

dashboard——当前系统的实时数据面板
thread——查看当前 JVM 的线程堆栈信息
jvm——查看当前 JVM 的信息
sysprop——查看和修改JVM的系统属性
sysenv——查看JVM的环境变量
vmoption——查看和修改JVM里诊断相关的option
perfcounter——查看当前 JVM 的Perf Counter信息
logger——查看和修改logger
getstatic——查看类的静态属性
ognl——执行ognl表达式
mbean——查看 Mbean 的信息
heapdump——dump java heap, 类似jmap命令的heap dump功能

class/classloader相关

sc——查看JVM已加载的类信息
sm——查看已加载类的方法信息
jad——反编译指定已加载类的源码
mc——内存编译器,内存编译.java文件为.class文件
redefine——加载外部的.class文件,redefine到JVM里
dump——dump 已加载类的 byte code 到特定目录
classloader——查看classloader的继承树,urls,类加载信息,使用classloader去getResource

monitor/watch/trace相关

①monitor方法执行监控
monitor -c 5 demo.MathGame primeFactors

-c 5 未统计周期默认120s
②watch能观察到的范围为:返回值、抛出异常、入参
watch demo.MathGame primeFactors “{params,target,returnObj}” -x 2 -b -s -n 2
-x 2 输出结果的属性遍历深度
-b 方法调用前
-s 方法返回后
-n 2 执行2次
watch demo.MathGame primeFactors “{params[0],throwExp}” -e -x 2
-e表示抛出异常时才触发
③trace方法内部调用路径,并输出方法路径上的每个节点上耗时
trace demo.MathGame run