我把“后端排障套路”做成了给 AI Agent 用的 Runbook很多线上故障并不是没有规律，而是排查流程本身高度套路

很多线上故障并不是没有规律，而是排查流程本身高度套路化。

比如某个详情页返回错了，很多后端同学的第一反应其实都差不多：

也就是说，真正值钱的往往不是“工具权限”，而是那套排障顺序和证据链。

我之前做 AI 排障/自愈相关事情时，最大的感受就是：给模型接更多 DB、Redis、Trace、日志工具，并不会自动变成一个靠谱的排障工程师。
如果没有明确的顺序约束和证据边界，结果通常就是：

所以我把这类“高度套路化”的排障流程抽出来，做成了一个开源 MVP：
debug-runbook

这个仓库今天真正开源的，不是原来那套内部系统的完整镜像，而是其中最可复用的一层：

换句话说，它不是让 Agent 自由发挥，而是让 Agent 先按 Runbook 查，再下结论。

现在的仓库已经能直接跑一个 0 配置 demo，不需要先填 Langfuse、Postgres、Redis 凭证：

pnpm install
pnpm demo
pnpm benchmark
pnpm check

当前默认 demo 是一个很典型的场景：

这类问题如果交给一个“自由工具流”的 Agent，经常会在 trace、DB 和缓存之间来回乱跳。
但如果把排查套路写成 Runbook，它就会老老实实按顺序去看 trace、看持久化状态、看 idempotency / cache，最后输出结构化结论，而不是靠猜。

这里也把边界说清楚：

如果你也在做 AI + 运维 / AI + 排障相关的事情，欢迎来拍砖。
我现在最想验证的不是“还能接多少工具”，而是：