点击上方蓝色“程序猿DD ”,选择“设为星标”
回复“ 资源”获取独家整理的学习资料!
作者 | 张奇(司楚)
当线上碰到头疼的问题时,还在对着代码一行行的看?真的不太时髦了啊喂~
- 是否有一个全局视角来查看系统的运行状况?
- 为什么 CPU 又升高了,到底是哪里占用了 CPU ?
- 运行的多线程有死锁吗?有阻塞吗?
- 程序运行耗时很长,是哪里耗时比较长呢?如何监测呢?
- 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?
- 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?
- 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?
- 有什么办法可以监控到 JVM 的实时运行状态?
场景1:定位压测时的性能瓶颈
平时服务器请求都很正常。压测时,依赖的服务、数据库也都没有到达瓶颈,但是机器的 CPU 全部飘红,why? 通过 jstack 命令,只能看到某一时刻的堆栈,没有抓到真凶。thread 查看当前线程信息,查看线程的堆栈。 thread -n 3 -i 10000 可以统计 10 秒内最忙的 3 个线程,并且打印它们的堆栈,很容易发现问题。 最终发现的问题比较简单:日志中打印了 location 的信息,包括 类名、方法名和行号。 动态获取代码的方法名、行号等信息,通常是通过 new Throwable() -> 打印 Throwable 的堆栈 -> 截取堆栈中最顶层的业务代码 -> 拆分字符串获取类、方法、行号等信息, 打印堆栈对性能损耗是比较大的。
场景2:检测偶发的超时
有段时间,总是碰到几次偶尔的超时,但是看日志都正常,鹰眼的调用链路都完全 ok,没有哪一步数据库操作或者 HSF 调用是特别慢的。 各种监控统计的时间维度的耗时,都十分正常,无法找到那个 rt 的尖刺。 想到了可能是日志的问题,但是没有证据支撑。trace 命令能监控每一步的耗时,并且可以配合条件表达式,当耗时超过 xx ms 时打印详细日志。找台机器,输入命令,后面的就是静等了。再次出现 rt 尖刺时,能够捕捉到耗时的分布情况。
场景3:debug?那要是动态字节码生成咋办?
之前碰到过一个 json 序列化时输出的数字带不带引号的问题。当时各种 debug、看代码,发现是通过 ASM 动态字节码的方式生成的序列化类。到这完全放弃了,debug 已经无法定位问题了。当时通过另外一种方式避免了这种问题。 反过来看这个问题的时候,我们可以通过 Arthas 的 jad 命令,反编译动态字节码生成的类,结合 watch 等命令,定位排查问题。jad——反编译指定已加载类的源码
场景 4:做点坏事
在问题排查过程中,发现了日志输出到了控制台,这个对性能的损耗是比较大的。有什么办法,在不发布的情况下紧急解决它?首先找到对应的 class
sc -d ch.qos.logback.core.ConsoleAppender class-info ch.qos.logback.core.ConsoleAppender code-source /home/admin/.../lib/logback-core-1.2.3.jar name ch.qos.logback.core.ConsoleAppender isInterface false isAnnotation false isEnum false isAnonymousClass false isArray false isLocalClass false isMemberClass false isPrimitive false isSynthetic false simple-name ConsoleAppender modifier public annotation interfaces super-class +-ch.qos.logback.core.OutputStreamAppender +-ch.qos.logback.core.UnsynchronizedAppenderBase +-ch.qos.logback.core.spi.ContextAwareBase +-java.lang.Object class-loader +-com.taobao..LaunchedURLClassLoader@58dad04a +-sun.misc.Launcher$AppClassLoader@18b4aac2 +-sun.misc.Launcher$ExtClassLoader@58ceff1 classLoaderHash 5f205aa然后获取 class 的属性信息,找到 appender 列表
ognl -c 5f205aa '@org.slf4j.LoggerFactory@getLogger("root").aai.appenderList'删除标准输出的 appender
1ognl -c 5f205aa '@org.slf4j.LoggerFactory@getLogger("root").aai.appenderList.remove(0)'神器:火焰图
排查性能问题的时候,还有一个神器:火焰图通过火焰图,很清晰的看到一段时间内,对每个方法耗时的统计。开始使用 Arthas
方式一:通过Cloud Toolkit 实现 Arthas 一键远程诊断 Cloud Toolkit 是阿里云发布的免费本地 IDE 插件,帮助开发者更高效地开发、测试、诊断并部署应用。通过插件,可以将本地应用一键部署到任意服务器,甚至云端(ECS、EDAS、ACK、ACR 和 小程序云等);并且还内置了 Arthas 诊断、Dubbo工具、Terminal 终端、文件上传、函数计算 和 MySQL 执行器等工具。不仅仅有 IntelliJ IDEA 主流版本,还有 Eclipse、Pycharm、Maven 等其他版本。 推荐使用 IDEA 插件下载 Cloud Toolkit 来使用 Arthas: http://t.tb.cn/2A5CbHWveOXzI7sFakaCw8 方式二:直接下载 地址:https://github.com/alibaba/arthasArthas 有奖征文开始啦!
-
使用 Arthas 排查过的问题
-
对 Arthas 进行源码解读
-
对 Arthas 提出建议
-
不限,其它与 Arthas 有关的内容
3 步提交征文
- 直接使用 Arthas 或通过 Cloud Tookit 使用 Arthas;
- 将你的体验整理成文章发布在掘金社区;
- 按要求填写以下表单:http://alibabadeveloper.mikecrm.com/9khcRrs
你将获得的礼物
-
凡提交满足投稿要求文章的同学,将获得 Arthas Most Valuable User 福袋一份(礼品随机),包含 淘公仔、Arthas 贴纸、阿里云 T 恤 、JetBrains 周边礼包;
-
第一期最受欢迎的 Top 3 文章,获得天猫精灵一台;
-
年度 Top 20 文章,将有机会获得 Cherry 键盘及 JetBrains 提供的包括 Coupon 等周边礼包。
你将获得的荣誉
除了实物奖励之外,你还会获得:-
在阿里巴巴云原生公众号和 Arthas 技术社区的首页,展示您的文章及作者介绍模块,让更多的开发者了解你;
-
成为 Arthas 社区的贡献者,参与社区的日常运营,并作为社区讲师参与 Arthas 线上/线下活动分享。
扫一扫,关注我
一起学习,一起进步