别再用“重启大法”了：你重启的时候，可能把关键证据也一起清掉了企微里业务同学一句话：“页面不报错，就是一直转圈。” 我第

企微里业务同学一句话：“页面不报错，就是一直转圈。”

我第一眼看监控，CPU、内存都不夸张，错误率也没明显抬头。那个瞬间我脑子里就两个字：重启。

结果重启后确实顺了几分钟，然后就更惨了：堆积涨得飞快、成片的超时、告警开始轰炸。

复盘下来扎心的一点是：问题不一定是重启造成的，但本来可以查的线索被我们重启清掉了。

这篇我把当时的脑回路和一些重启前需要做的一些措施写出来。

一、现场长啥样：业务没死但动不了

这种事故最烦：

你就很容易陷入自我怀疑呀：到底是用户网不好？还是前端问题？还是那个后端队列卡死了？

我那会儿也犯了这个毛病：盯着“服务健康”看了 5 分钟，还是没能定位到用户具体卡在哪一步。

讲真，人是会偷懒的。你看到不明显的异常，又怕拖着拖着变大故障，自然而然就想 “重启试试” ：

问题是：重启一旦执行，也同时一些关键线索也断了。

我把当晚的关键点尽量按时间线说清楚：

那 3 分钟“好了”，现在回头看就是最迷惑人的：它让你以为重启有效，反而错过最该做的事——保留证据 + 定位根因。

在这种情况里，重启就不是简单的重启一个进程，它会触发一串连锁反应：

一句话：重启的那一刻，系统状态被重置了，但系统负担没被重置。

这次让我最尴尬的点是：问题本身也许不是我重启造成的，但我把排障线索弄断了。

计数器归零： 很多关键指标是counter，重启后归零，你再看趋势就像被切断。

实例身份变了： K8s pod 名变了，虚机进程号变了，原本盯的那个“有问题的实例”，重启后没法对齐。

现场信息没了： 线程栈/运行时快照/连接池状态，这些东西最有价值的就是“故障发生时那一刻”。你重启完再抓，抓到的是恢复后的数据，没意义。

最后说一句：不是说不能重启，而是不能在什么措施都没做的情况下就盲目重启。上面这七点也不是什么“流程规范”，就当成给自己兜底了。