ITSS问题管理实战:让问题成为老师,而不是敌人

24 阅读6分钟

那次宕机事故,让我在公司年中会上被点名。那天上午十点,支付系统再次中断,客户投诉暴增,CEO直接拨通我电话,只问了一句:“这个问题上次不是解决了吗?”我一时语塞。是的,三个月前,我们刚因为同样的数据库连接错误停过一次服务。当时我们加了监控、优化了脚本,所有人都觉得问题解决了,可显然,我们只是治了“症”,没治“病”。

事故恢复后,我在办公室坐了很久。不是因为技术没搞明白,而是因为我终于意识到:我们根本没有真正的问题管理机制。每次出事,大家忙着抢修、写报告、关工单,却没人问“为什么会发生”。那种循环让我想起一个词——救火文化。救火时所有人都英勇,灭完火大家都松口气,然后继续等下一次火警。我们似乎把“能快速修复”当成能力,却忘了“让故障不再发生”才是成熟。

我召集团队开了一场不太愉快的会议。有人说:“我们已经很努力了。”我点头:“没错,但努力不代表有效。”有经验的同事提醒:“问题太多,追根太慢。”我回答:“那是因为我们还没建立追根的机制。”这次我决定彻底改变处理方式。

微信图片_20251129143636_159_5.png


过去我们处理事件的方式非常标准:告警、确认、分派、解决、关闭。但在ITSS框架里,事件只是表象,问题才是根源。事件管理关注的是“服务尽快恢复”,而问题管理关注的是“如何防止重演”。这两者的逻辑不同,思维也不同。前者是短跑,后者是长跑。可惜,我们的组织文化一直更喜欢短跑——快、有成就感、立竿见影;没人愿意花时间复盘,因为复盘看起来“不生产结果”。

我让团队回顾过去六个月的重大事件记录。结果发现,58%的重大事件都与重复性问题有关;其中70%的重复问题没有对应的根因分析报告。我们只是简单写了“已修复”“脚本优化”,但从未验证问题是否真的根除。更糟的是,很多事件的初步处理方案被当成“标准解法”,下次再遇到同类问题,大家直接照搬。这种“习惯性修复”反而让系统陷入更大的风险。

我那时突然理解了ITSS提出问题管理的意义:它不是为了做文档,而是为了让组织从“解决问题”走向“理解问题”。我们开始按照ITSS的五步问题管理流程重新构建体系:问题识别、根因分析、临时解决、永久修复和持续改进。每一步都要求有证据、有复盘、有归档。听起来繁琐,但那正是区别于“经验主义”的地方。

本文由艾拓先锋ITSS官方授权认证培训讲师熊健淞原创,未经许可谢绝转载。我在授课时常举这个案例告诉学员——问题管理并不是锦上添花的补充,而是体系化运维的灵魂。如果你每次事故后都只想着“恢复”,那你永远在做被动工作;但如果你学会追问“为什么”,你就踏上了改进之路。


我们决定先选一个典型问题来验证新流程。那是支付系统的连接中断问题。以往我们总认为是网络波动造成的,但这次我让工程师逐层分析,从数据库日志到中间件队列,再到后端服务。结果发现,根因竟是负载均衡器的连接数阈值被误配置。那次发现震惊了所有人,因为这个配置参数在两年前系统上线时就设错了,而那次“偶发性宕机”,其实早就有迹可循。

这次之后,我们引入了“问题复盘会”。每次重大问题解决后,由问题经理主持会议,邀请相关技术人员、业务代表和质量团队参与。会议上必须回答三个问题:第一,问题为什么发生?第二,为什么没有提前发现?第三,怎样保证不再重演?没有数据支撑的解释不算答案,没有行动计划的问题不算结束。刚开始,大家觉得太严格,但几次之后,会议成了大家最期待的时刻,因为每次复盘,都会有新的学习和洞见。

接着我们建立了“问题登记系统”。任何一次重复性故障或潜在风险都要录入系统,系统自动关联相关事件和变更。通过数据聚类分析,我们能看出哪些问题类型最频繁、哪些模块最脆弱。一个季度后,我们发布了第一份“问题热力图”,上面清楚地标出问题集中区——网络设备、存储性能、应用接口。这张图成为后来预算申请的关键依据。

真正让团队转变的,是“预防”两个字。过去大家等事故发生再反应,现在他们学会提前识别“潜在问题”。我们建立了一个每月一次的“问题预测例会”,所有事件经理汇报最近趋势,分析潜在风险。那种会议的气氛完全不同,大家不是在追责,而是在思考“下一步怎么不出错”。

我记得有一次,开发团队提出新版本上线计划。以前我们只是审查测试报告,这次我要求他们在上线前提交“潜在问题清单”。他们列出了五个风险点,其中一个是缓存同步机制。于是我们提前部署了验证脚本。结果上线当天,脚本果然捕捉到异常,我们在用户未感知前就修复完成。那天我在报告上写了一句:“问题管理的最高境界,不是复盘事故,而是预见事故。”


问题管理改变的不只是流程,更是心态。过去我们的文化是“出了问题,赶紧修”;现在变成了“有问题,赶紧学”。我常说,成熟的团队不是没有问题,而是从问题中变聪明。真正可怕的不是错误,而是同一个错误反复发生。

半年后,我们统计数据:重复性故障减少了68%,平均恢复时间缩短了40%,知识库新增问题案例142条,团队满意度提高到92%。这些数字固然重要,但更让我欣慰的是一种无声的转变——没人再把问题当负担,大家开始把问题当素材,当老师。每一次故障,都是一次成长。

成熟的组织,学会把问题当老师。