运维随身工具箱,命令秒查、脚本即用——现已上线

0 阅读8分钟

微信搜索「OpsKit运维宝典」,免费用


适合谁:Linux 运维 / 云原生 / DevOps / 银行金融运维 / AIX 运维 你能得到:一个免费小程序 + 关注公众号领激活码


一、一个故障现场常见的状态

命令你用过,参数你记不住。

tcpdump 的过滤怎么写、awk 怎么提取第三列、kubectl 查某个 namespace 下异常 Pod 的完整命令——

平时心里有数,一到故障现场开始翻:收藏夹、备忘录、浏览器历史……

翻了 5 分钟,故障还在那里等你。


这不是记性差,是触达效率问题。

知识存在收藏夹里等于没存。

上篇文章《线上网络丢包?5步+tcpdump快速定位》里,我把用到的十多条命令全写出来了。评论区反馈最多的一条:

"文章写得很清楚,但真到自己排查的时候,还是记不起那条命令怎么写。"

这个反馈我觉得很真实——把公众号当工具书翻,体验本来就不好。

所以我做了个小程序,把命令直接装进手机:打开就搜,搜到就复制,不用翻文章。


二、这是什么东西

OpsKit运维宝典,v1.3.0,现已上线。

一句话定位:命令速查 · 脚本即用 · 安全合规

┌──────────────────────────────────────────────┐
│            OpsKit运维宝典  v1.3.0             │
├──────────────────────────────────────────────┤
│  📋 运维参考                                  │
│     ├─ Linux 命令速查(6大分类,语法+示例+技巧)│
│     ├─ 云原生速查(Docker + K8s 常用命令)     │
│     ├─ Windows 排查(进程/网络/系统/磁盘)     │
│     ├─ AIX 应急排查(IBM AIX 常用应急命令)🆕  │
│     └─ 运维脚本库(拿来即用,复制即用)🔒      │
├──────────────────────────────────────────────┤
│  🛡️ 安全工具                                  │
│     ├─ 内部代码脱敏(7类敏感信息自动替换)🔒   │
│     └─ 脚本安全检查(14条规则,0-100评分)     │
├──────────────────────────────────────────────┤
│  🔧 效率工具                                  │
│     ├─ 故障排查向导(11类故障,步骤式引导)    │
│     └─ 运维模板库(6场景,复制即用)🔒         │
├──────────────────────────────────────────────┤
│  ⭐ 我的收藏(常用内容一键收藏,随时取用)     │
└──────────────────────────────────────────────┘

🔒 = 需要解锁的功能(获取方式在文末)


三、最高频用法:Linux 命令速查

这不是参数手册,是运维实战笔记。

按「系统信息 / 网络工具 / 进程管理 / 文件操作 / 磁盘管理 / 用户权限」六类收录高频命令,每条都有:语法 + 实战示例 + 踩坑技巧

几个有代表性的:


top 的 4 个按键,排查 CPU 飙高必用

大部分人只会输入 top 然后盯着看。故障现场真正用到的是:

1  → 展开所有 CPU 核心(判断单核打满 vs 整机高)
按 P  → 按 CPU 使用率降序排列
按 M  → 按内存使用量排列
按 z  → 高亮正在运行的进程

💡 上篇《CPU飙到99%?一条命令定位元凶》里写到:银行支付网关 CPU 飙到 100%,按 1 才发现是单核被打满,整机 CPU 只用了 25%。不知道这个按键,容易误判方向。小程序里这条备注保留了,现场不用回头翻文章。


ssnetstat 快 10 倍

查网络连接用 ss,不用解析 /proc,连接数上万时感知最明显:

ss -tunlp                                      # 所有 TCP 监听端口及进程
ss -s                                          # 各状态连接数统计(TIME_WAIT 堆积必查)
ss -tn state established '( dport = :3306 )'  # 某端口 ESTABLISHED 连接数

tail -Ftail -f 多一个字母,少一个坑

日志轮转后,-f 跟的是原 inode,日志切文件后会断掉。-F 会自动跟踪新文件名。

排查问题时直接用 -F,这个坑不用踩第二次。


四、v1.3.0 新增:AIX 应急排查

银行、金融核心系统很多跑在 IBM AIX 上。AIX 命令和 Linux 差异不小,应急时容易卡住,而且网上资料比 Linux 少得多。

这次专门新增了 AIX 应急排查,按场景收录:

场景常用命令
系统信息prtconflsdevlscfg
进程管理pskillnohup
网络排查netstatifconfigping
磁盘管理dflsvglslv
性能监控topasvmstatiostat

每条命令都有:语法 + 使用场景 + 参数说明 + 实战技巧。

用 AIX 的同行,终于有随身速查了。


五、云原生速查

Docker 和 K8s 按「基础 / 进阶 / 排查」三级收录,专挑容易忘参数的:

Docker

docker stats --no-stream                    # 容器资源占用(不滚动刷新)
docker exec -it <container_id> /bin/bash   # 进入运行中的容器
docker save -o image.tar nginx:latest      # 导出完整镜像(含历史层)

K8s 排查

kubectl describe pod <pod-name> -n <ns>                       # 查 Pod 事件(看不到日志先看这里)
kubectl top pod -n <ns>                                        # 实时查 Pod 资源消耗
kubectl port-forward pod/<pod-name> 8080:80 -n <ns>           # 本地临时调试端口映射
kubectl get pods -A | grep -v Running | grep -v Completed     # 全局异常 Pod 一览

六、故障排查向导:11 种故障,步骤式引导

收到告警不知道从哪下手,是很正常的状态,尤其是接手别人系统或者跨平台排查。

向导覆盖 11 种常见故障类型:

服务不可用 · 性能下降 · 网络异常 · 磁盘不足 · 负载过高 内存泄漏 · 数据库异常 · SSL证书 · SSH连接 · 文件权限 · 容器问题

选故障类型 → 按步骤执行 → 每条命令一键复制。

对新人是「排查导师」,对老手是「确认清单」——高压状态下不遗漏关键步骤。


七、分享代码前,两件事不能省(银行/金融必看)

第一:先脱敏

生产脚本分享出去之前,用内部代码脱敏跑一遍,自动识别并替换 7 类敏感信息:

IP 地址       →  <INTERNAL_IP>
手机号        →  <PHONE_NUMBER>
邮箱地址      →  <EMAIL>
身份证号      →  <ID_NUMBER>
密码字段      →  <DB_PASSWORD>
数据库连接串  →  <DB_URL>
API 密钥      →  <API_KEY>

手动替换容易漏,自动扫描更靠谱。

第二:先安检

脚本安全检查扫一遍:

  • 硬编码密码 / AK/SK 暴露检测
  • 危险命令检测:rm -rfchmod 777eval
  • 0-100 安全评分 + 具体问题行号 + 修复建议

这两件事,银行安全审查之前必须过。现在手机上就能做完,不用专门开电脑。


八、运维脚本库:不用写,直接用

每个脚本:完整代码 + 使用说明 + 定制提示词(想改就复制提示词让 AI 帮你改)。

分类覆盖场景
系统巡检批量磁盘/内存/CPU 巡检,超阈值自动告警
日志分析Nginx 日志统计,TOP IP / 状态码 / 高频 URL
性能监控资源使用率持续监控,超阈值自动记录
批量操作批量端口检测、服务状态巡检
备份恢复数据库备份校验,文件异常告警

解锁方式:使用小程序满 6 次自动解锁,免费。


九、公众号 + 小程序是什么关系?

经常有读者问这个问题。

公众号写"思路",小程序提供"工具"。

公众号文章小程序对应功能
《线上网络丢包?5步+tcpdump快速定位》故障排查向导 → 网络异常
《CPU飙到99%?一条命令定位元凶》Linux命令速查 → 进程管理
《小王把脚本分享出去,差点变成安全事件》代码脱敏 + 脚本安检
未来会写的运维实战文章持续更新到命令库和脚本库

文章负责讲清楚"为什么这样做",小程序负责"做的时候不用再翻文章"。

它们是同一个知识体系的两种形态。


十、🎁 粉丝专属激活码:关注公众号领

小程序基础功能完全免费。

其中两个功能需要解锁:

功能解锁方式
内部代码脱敏关注公众号「云间豹变」,回复 解锁 领激活码
运维模板库分享小程序给 3 位运维朋友,自动解锁

一次激活,换手机也能用,终身有效。


👇 三步搞定:

  1. 微信搜索小程序「OpsKit运维宝典」,打开使用
  2. 关注公众号「云间豹变」,回复 解锁
  3. 把激活码粘贴到小程序 → 内部代码脱敏 → 永久解锁

为什么要这样设计?

激活码不是套路,是我想把这个功能留给真正在用的朋友。 公众号是我持续写银行运维实战的地方,小程序是把这些实战经验做成工具的尝试。 你关注,我继续做;你用得上,就值得。


十一、你遇到过哪种命令最容易卡壳?

A. tcpdump 过滤表达式(每次都得查)
B. kubectl 参数太多记不住
C. awk / sed 语法(写对了也不确定)
D. AIX 命令(网上资料少,全靠背)
E. 其他——评论区说说你的情况

👇 评论区留言,我看到必回。

点赞最高的痛点,下个版本优先加进来,更新日志里署你的名字。


📌 本文提到的功能,都在这里

微信搜索小程序 →「OpsKit运维宝典」→ 免费打开用


关注公众号「云间豹变」,回复关键词领资源:

回复关键词获取内容
解锁OpsKit运维宝典专属激活码(永久解锁内部代码脱敏)
命令手册Linux 运维命令速查 PDF 版
脚本模板运维脚本打包下载
模板库运维模板合集