机器监控手段

151 阅读2分钟

机器层面的监控分为两部分,带内监控和带外监控。随着云时代的到来,普通运维研发人员主要关注带内监控即可,IDC 运维人员才会关注带外监控。

  • 带内监控就是通过带内网络来监控,主要是以在 OS 里部署 Agent 的方式,来获取 OS 的 CPU、内存、磁盘、IO、网络、进程等相关监控指标。

  • 带外监控走的是带外网络,通常和业务网络不互通,通过 IPMI、SNMP 等协议获取硬件健康状况。

IPMI 可用于监控硬件的物理参数,如系统温度、风扇速度、电源电压等,可以有效地利用 IPMI 监控硬件温度、功耗、启动或关闭服务器和系统,以及进行日志记录。IPMI 的一个主要亮点是,它的功能独立于服务器的 CPU 和操作系统。因为固件是直接在服务器主板上运行的,所以不管安装的操作系统是什么,它都可以用于管理各种远程位置的服务器。BMC(服务器基板管理控制器)也可以开启 SNMP 的支持,通过 SNMP Trap 做硬件监控是一个很好的思路。不过目前没有看到比较好的产品,可能一些老牌的国外监控产品可以做,但是那些产品都偏老套且收费昂贵。不过现在大都在上公有云,传统的 SNMP Trap 的监控,已经是一个存量需求了,不懂也不用太过焦虑。带内监控,常见的 Agent 有 Categraf、Telegraf、Grafana-agent、Datadog-agent、Node-exporter 等。

此文章为11月Day21学习笔记,内容来源于极客时间《运维监控系统实战笔记》,强烈推荐该课程