把 Arthas 接上 AI 后,我直接“躺着排查线上问题”

0 阅读2分钟

把 Arthas 接上 AI 后,我直接“躺着排查线上问题”

废话不多说,先上效果:

preview


这是什么?

这是我开源的一个 Arthas 自动化运维平台(源码),这是新的一个特性:

👉 把复杂的排障过程“流程化”,再交给 AI 自动执行

在线体验地址: spectreproject.click/

账号密码:public / P@ssw0rd

overview

本文不展开平台架构,重点讲一个最有意思的能力:AI + Arthas = 自动排障


🚀 核心能力:Skills 驱动排障

在我看来,Arthas 和 AI 结合最优解不是“对话”,而是:

👉 把排障经验沉淀为 Skills,让 AI 按流程执行

skills

目前内置了 3 个 Skills(后续会持续扩展),例如:

  • 获取 Spring Application Context
  • 慢查询诊断
  • CPU 问题排查

🔍 实战:慢查询自动排查

我们用一个最常见的线上问题来演示:

👉 接口响应慢,到底慢在哪里?让 AI 来给你定位。

Step 1:构造一个慢接口

这里我们写了一段测试代码,使用 sleep 模拟慢请求:

demo-code


Step 2:告诉 AI 从哪里开始查

我们只需要给 AI 一个起点:

UserController 开始排查

start


Step 3:AI 自动执行排查流程

AI 会基于 Skill,自动生成 Arthas 命令,并逐步推进排查流程。

⚠️ 注意:每条命令都需要人工确认(保证安全性)

第一次执行:

  • 阈值设置为 3000ms
  • 实际耗时约 2000ms
  • 👉 没有命中

first

👉 AI 会自动调整策略,继续尝试(而不是直接放弃)


Step 4:逐步收敛问题范围

当检测到可疑方法后,AI 会自动继续 trace 调用链:

trace

👉 从 Controller → Service → 具体代码行,一步步逼近问题点


Step 5:输出最终结论

最后,AI 会汇总所有 trace 结果,直接给出结论:

result


💡 这件事真正有价值的地方

很多人看到这里可能会觉得:

“这不就是帮我把 Arthas 命令自动执行了一遍吗?”

其实不太一样,核心在这几点:

1️⃣ 固化排障流程

把原本依赖经验的排查步骤整理成固定流程,让 AI 按步骤执行,避免遗漏关键环节。


2️⃣ 降低使用门槛

不需要熟悉 Arthas 的各种命令和参数,只要给出排查入口,就能一步步得到结果。


3️⃣ 可以持续积累

常见问题(慢查询、CPU、线程等)都可以沉淀成 Skills,后面直接复用,而不是每次从头分析。


🎮 在线体验

直接体验: spectreproject.click/spectre

账号密码: public / P@ssw0rd

测试接口(慢查询): spectreproject.click/user/1


⭐ 最后

如果你觉得这个方向有意思,欢迎来 GitHub 点个 Star 🙏:

github.com/vudsen/spec…

这对我来说真的很重要。