MSP规模化最常见的“死循环”是:
客户变多 → 告警变多 → 工单变多 → 只能靠更资深的人扛 → 交付不稳定 → 继续救火。
要打破它,不需要一开始就搞“全栈重构”。你只需要把一个最小闭环跑通,并且让它能被统计:
-
监控(Signal):把异常信号变成可处理事件
-
工单(Workflow):把事件变成标准化任务
-
派单(Dispatch):把任务交给合适的人并可追踪
本文给你一套偏工程化的落地方法:字段怎么定、状态怎么走、派单规则怎么写、2~4周怎么上线。
0. 目标定义:闭环要能回答这三个问题
你上线的第一版,至少要能自动/半自动回答:
-
这是谁的问题?(客户/站点/资产)
-
现在谁在处理?(班组/工程师)
-
是否在SLA内?(响应/恢复的分段耗时)
如果答不上来,系统再“全”也很难规模化。
1. 事件模型:告警不是事件,事件才配开工单
1.1 最小事件类型(建议先从3类开始)
-
Availability:站点/链路不可用
-
Critical Service:关键业务不可用
-
High Impact Performance:高影响性能退化(P95/错误率)
1.2 事件聚合(防止开单风暴)
建议的最小聚合键:
-
tenant(customer) + site + asset + event_type
聚合规则示例:
-
N分钟内同键事件合并
-
未恢复前不重复开单,只追加证据(指标快照/日志片段/拓扑截图)
2. 工单模型:字段标准化,才能做到“可派、可统计、可复盘”
2.1 最小字段集(够用就好)
-
Tenant:客户
-
Site:站点/门店/分支
-
Asset:设备/链路/系统
-
Severity:P0/P1/P2
-
SLA:响应时限、恢复时限
-
Owner:处理人/班组
-
Status:状态机
-
Timeline:时间线(每次更新都落一条)
2.2 最小状态机(建议从这套开始)
-
NEW → ACK → IN_PROGRESS → RESTORED → POSTMORTEM → CLOSED
可选分支:
-
WAIT_CUSTOMER/WAIT_VENDOR/WAIT_SPARE
状态机的关键收益:你可以直接统计:
-
T_ack(从触发到确认) -
T_fix(从确认到恢复) -
T_close(从恢复到关闭/复盘)
3. 派单规则:先别上复杂算法,用“规则 + 保底机制”就够
3.1 最小派单规则(按优先级从上到下匹配)
-
按区域:站点 → 区域工程师池
-
按技能:网络/系统/应用
-
按值班:当班优先
-
按负载:当前在处理工单数更少者优先
3.2 两条保底机制(没有它就会烂尾)
-
超时升级:响应/恢复超时自动升级给组长/值班负责人
-
自动回收:长时间无更新自动提醒,仍无更新则回收再派
4. 2~4周落地路线(建议照这个节奏做)
Week 1:先跑通闭环
-
选10个客户/站点试点
-
只接入3类事件
-
工单字段/状态机上线
-
派单规则上线(不追求完美)
Week 2:做降噪与聚合
-
同根因合并
-
未恢复前不重复开单
Week 3:做SLA统计与报表
-
响应/恢复分段耗时
-
按客户/站点/工程师/班组统计
Week 4:做复盘与知识复用
-
同类事件关联历史工单
-
Runbook模板化
5. 你可以直接复制的“最小闭环配置清单”
-
Severity定义:P0/P1/P2
-
事件聚合键:tenant+site+asset+type
-
合并窗口:N分钟
-
开单策略:未恢复不重复开单,仅追加证据
-
工单字段:tenant/site/asset/severity/SLA/owner/status/timeline
-
状态机:NEW→ACK→IN_PROGRESS→RESTORED→POSTMORTEM→CLOSED
-
派单匹配:区域→技能→值班→负载
-
超时升级:响应/恢复
-
自动回收:无更新
6. 冠服云在这个闭环里能做什么(MSP平台能力点)
冠服云自研MSP运维平台把“监控 + 工单 + 派单”打通,围绕多租户交付做:
-
多租户/多站点/多资产统一视图
-
告警事件化(聚合降噪,避免开单风暴)
-
工单字段与流程标准化(可追踪、可统计)
-
规则派单(区域/技能/值班/负载)
-
SLA与交付报表(让优化有数据)
结尾:拿模板/做一次落地评估
我整理了《MSP规模化交付工具包》(告警降噪清单 + 工单字段模板 + 派单流程模板 + 月报指标模板)。 评论回复关键词 MSP工具包 获取可编辑版本