团队里最懂那台交换机的老张离职了,他的经验怎么留下来?

4 阅读8分钟

团队里最懂那台交换机的老张离职了,他的经验怎么留下来?

上个月,一个做运维管理的老朋友找我吐槽。

他们公司有个老工程师老张,干了七年,几百台网络设备的配置细节烂熟于心。哪台交换机端口 23 经常掉线、哪台防火墙的 ACL 规则有坑、数据库慢查询的排查套路,全在他脑子里。

结果老张提了离职。

交接期一个月,老张很配合,写了十几页文档。但人一走,问题还是来了:新来的小伙子对着文档照样懵,文档里写"检查端口状态并定位异常端口",但没说命令输出里的哪个字段代表异常、怎么判断阈值、异常之后联系谁。

知识在人脑子里,不在系统里。

这不是老张的错,也不是小伙子的错。这是所有靠经验驱动的运维团队最终都会撞上的墙。


你的团队有没有这些信号?

走一圈看看,如果中了两条以上,说明问题已经在积累了:

  • 核心设备只有一两个人敢碰。 别人不是不想碰,是不敢——万一敲错了命令,背锅。
  • 同样的巡检任务,不同人做出来的结果不一样。 张三查出的"异常端口"和李四查出的对不上,因为判断标准不统一。
  • 新人上手周期三到六个月。 前两个月在熟悉环境,第三个月才敢独立执行任务,半年才能独当一面。
  • 工单经常排队等专家。 一个配置变更要等老王有空才能做,业务方催得紧。
  • 审计的时候手忙脚乱。 谁在什么时候执行了什么操作、改了什么配置,记录不全,说不清楚。

这些问题不是招人就能解决的。因为问题的本质是:运维能力是挂在人身上的,不是挂在系统上的。


清巡的思路:把经验固化成可执行的资产

清巡不是一个"脚本生成工具",它是一套把运维经验从人脑中提取出来、固化成可复用资产的系统。

怎么做的?回到最核心的机制——

命令报文处理逻辑

拿交换机巡检来说。老张在的时候,他的巡检套路是:

  1. SSH 登录交换机
  2. 执行 show interface status,凭经验扫一眼输出,找 down 的端口
  3. 执行 show cpu usage,看看有没有异常飙升
  4. 执行 show log,搜关键字找告警
  5. 把结果整理成邮件发出去

这套动作,老张脑子里走了上千遍,闭着眼都能做。但新人不行。

用清巡的做法:让老张把每一步写成提示词,而不是写成文档。

步骤1:
命令:show interface status
响应:Port    Name               Status       Vlan    Duplex Speed  Type
      Gi0/1   Uplink-to-Core     connected    1       a-full a-1000 10/100/1000
      Gi0/2   Server-Rack-1      notconnect   1       auto   auto   10/100/1000
      Gi0/3   Access-Floor-2     connected    2       a-full a-1000 10/100/1000
处理逻辑:解析每一行,Status 列为 "notconnect" 或 "disabled" 的端口视为异常,输出端口名称和状态

步骤2:
命令:show cpu usage
响应:CPU utilization for five seconds: 2%/0%; one minute: 3%; five minutes: 3%
处理逻辑:提取 "five seconds" 后的第一个百分比值,大于 80% 则告警

步骤3:
命令:show log | include ERR|CRIT|ALERT
处理逻辑:逐行输出,每行标注日志级别

AI 根据这些提示词生成脚本,沙箱验证通过后,这份脚本就成了可执行的巡检标准

注意——新人面对的不是脚本代码,不是 Ruby 程序。他看到的是上面那段自然语言写的提示词

"执行 show interface status,找到 Status 列为 notconnect 或 disabled 的端口" "提取 CPU 使用率,大于 80% 告警"

他能读懂每一步在做什么、判断逻辑是什么、异常标准是什么。因为提示词就是用中文写的操作思路,不是代码。

然后他在客户端里创建任务、选中这台交换机、点执行。脚本自动登录、自动执行命令、自动解析输出、自动生成报告。

老张走了,老张的巡检套路留下来了。


对管理者来说,几个直接的变化

1. 培养周期缩短

以前新人跟着师傅学半年才敢独立操作。不是新人笨——是运维经验需要时间积累,命令怎么敲、输出怎么看、异常怎么判,都得一个一个场景磨。

现在师傅把关键操作写成自然语言提示词。新人看到的不是代码,是这段中文描述:

"执行 show interface status,找出 notconnect 的端口"

他读得懂这段中文,知道这一步在干什么、标准是什么、异常怎么定义。如果业务需求变了——比如新增一种端口状态也要算异常——他直接在提示词里加一句中文就行,不用碰代码。

不是说新人不需要学习——他需要学,但他学的是业务逻辑和判断标准,不是学怎么改代码。提示词本身就是教材:每步做了什么命令、预期什么输出、怎么判成败,清清楚楚用中文写着。

2. 执行质量统一

五个人做巡检,出五份不同格式的报告?不用了。

同一个脚本执行出来的结果格式一致、判断标准一致。谁来点那个"执行"按钮,结果都一样。这对审计和合规来说尤其关键——你不会被问到"为什么张三的报告里这个指标查了、李四的没查"。

3. 知识从人转移到系统

这可能是最重要的一点。

运维团队最怕的不是设备出故障,是处理故障的人恰好不在。清巡的思路不是让人更厉害,而是让系统承担更多——

提示词库就是团队的知识库。

老张写的"检查端口状态并定位异常端口"不再是一句含糊的文档标题,而是一段可执行的自然语言描述:执行什么命令、报文长什么样、怎么判断异常。老张走了,这段提示词留下来。新来的小伙子对着提示词就能看懂老张当初的设计思路——因为写的是中文,不是代码。

积累的是提示词。脚本随时可以从提示词重新生成,但提示词里的业务逻辑才是资产。反过来,需求变了——比如输出格式换了——改提示词重新生成就行,不用维护代码。

4. 安全合规一条线

从管理角度,你需要在三个层面上放心:

  • 数据安全:设备密码在客户端本地加密存储,云端从来没见过。就算云端被攻破,攻击者拿不到任何设备的登录凭证。
  • 操作留痕:谁在什么时间对哪台设备执行了哪个脚本、每步命令的输出是什么,全部记录在案。审计的时候一键导出。
  • 权限收敛:新人能执行任务,但不能随意修改提示词。提示词的创建和修改由有经验的工程师控制,执行权限下放给一线运维。权责清晰。新人看到的始终是自然语言,不需要接触代码层。

5. 团队可以横向扩展

10 台设备和 200 台设备,管理成本的差异有多大?

在没有自动化的情况下,基本是线性的——设备多 20 倍,人力投入也要多 20 倍。

有了标准化脚本 + 客户端批量执行,200 台设备的一次巡检和一个批处理任务的区别不大。创建任务、关联脚本、勾选设备、点执行,客户端并行连接所有设备。哪台成功哪台失败、失败原因是什么,汇总报告一目了然。


怎么开始?

不需要一次把所有的运维经验都固化。从最频繁、最重复、最依赖特定人的那件事开始。

比如你们团队每个月要改一次 ACL、每周要做数据库健康检查、每天要巡检核心交换机。先挑一件,让最熟悉这件事的人花半小时把提示词写出来,生成脚本,跑一遍,感受一下效果。

单件事跑通了,再逐步扩展。提示词积累到一定程度,你会发现团队对"那个人"的依赖在悄悄降低。

客户端完全开源,免费额度足够跑起来验证价值。

推广期间,如果你有具体的场景想自动化但不确定怎么下手,可以联系我协助定制开发。把需求描述清楚,帮你拆成提示词、生成可执行脚本,免费,就当听听真实反馈。

👉 qingxun.online