把 Arthas 接上 AI 后,我直接“躺着排查线上问题”
废话不多说,先上效果:
这是什么?
这是我开源的一个 Arthas 自动化运维平台(源码),这是新的一个特性:
👉 把复杂的排障过程“流程化”,再交给 AI 自动执行
在线体验地址: spectreproject.click/
账号密码:public / P@ssw0rd
本文不展开平台架构,重点讲一个最有意思的能力:AI + Arthas = 自动排障
🚀 核心能力:Skills 驱动排障
在我看来,Arthas 和 AI 结合最优解不是“对话”,而是:
👉 把排障经验沉淀为 Skills,让 AI 按流程执行
目前内置了 3 个 Skills(后续会持续扩展),例如:
- 获取 Spring Application Context
- 慢查询诊断
- CPU 问题排查
🔍 实战:慢查询自动排查
我们用一个最常见的线上问题来演示:
👉 接口响应慢,到底慢在哪里?让 AI 来给你定位。
Step 1:构造一个慢接口
这里我们写了一段测试代码,使用 sleep 模拟慢请求:
Step 2:告诉 AI 从哪里开始查
我们只需要给 AI 一个起点:
从
UserController开始排查
Step 3:AI 自动执行排查流程
AI 会基于 Skill,自动生成 Arthas 命令,并逐步推进排查流程。
⚠️ 注意:每条命令都需要人工确认(保证安全性)
第一次执行:
- 阈值设置为
3000ms - 实际耗时约
2000ms - 👉 没有命中
👉 AI 会自动调整策略,继续尝试(而不是直接放弃)
Step 4:逐步收敛问题范围
当检测到可疑方法后,AI 会自动继续 trace 调用链:
👉 从 Controller → Service → 具体代码行,一步步逼近问题点
Step 5:输出最终结论
最后,AI 会汇总所有 trace 结果,直接给出结论:
💡 这件事真正有价值的地方
很多人看到这里可能会觉得:
“这不就是帮我把 Arthas 命令自动执行了一遍吗?”
其实不太一样,核心在这几点:
1️⃣ 固化排障流程
把原本依赖经验的排查步骤整理成固定流程,让 AI 按步骤执行,避免遗漏关键环节。
2️⃣ 降低使用门槛
不需要熟悉 Arthas 的各种命令和参数,只要给出排查入口,就能一步步得到结果。
3️⃣ 可以持续积累
常见问题(慢查询、CPU、线程等)都可以沉淀成 Skills,后面直接复用,而不是每次从头分析。
🎮 在线体验
直接体验: spectreproject.click/spectre
账号密码:
public / P@ssw0rd
测试接口(慢查询): spectreproject.click/user/1
⭐ 最后
如果你觉得这个方向有意思,欢迎来 GitHub 点个 Star 🙏:
这对我来说真的很重要。