《 分布式应用 》分布式监控平台----Zabbix

459 阅读12分钟

前言

市场上常用的监控软件:

  • 传统运维:zabbix、 Nagios
  • 云原生环境: Prometheus (go语言开发的)

Linux下开源监控系统简单介绍
1)cacti:存储数据能力强,报警性能差
2)nagios:报警性能差,存储数据仅有简单的一段可以判断是否在合理范围内的数据长度,储存在内存中。比如,连续采样数据存储,有连续三次不在合理范围内的数据就报警
3)zabbix:结合上面两种工具的优点,又可以存储数据,又可以报警。

一、zabbix概述

作为一个运维,需要会使用监控系统查看服务器状态以及网站流量指标,利用监控系统的数据去了解上线发布的结果,和网站的健康状态。

Snipaste_2022-11-17_08-49-45.png

利用一个优秀的监控软件,我们可以:

  • 通过一个友好的界面进行浏览整个网站所有的服务器状态
  • 可以在Web 前端方便的查看监控数据
  • 可以回溯寻找事故发生时系统的问题和报警情况

1.1 zabbix是什么?

  • zabbix是一个基于Web界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。
  • zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。
  • zabbix由2部分构成,zabbix server 与可选组件zabbix agent。 通过c/s 模式采集数据,通过B/s模式在web端展示和配置。
  • zabbix server 可以通过SNMP(简单网络管理协议),zabbix agent,ping, 端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它 可以运行在Linux等平台上。(支持多个平台,windows也支持)
  • zabbix agent需要安装在被监视的目标服务器上,它主要完成对硬件信息或与操作系统有关的内存,CPU等信息的收集。

0.jpg

Zabbix特性

  • 数据采样:通过snmp、ssh、telnet、agent、ipmi、jmx等通道采集被监控主机的数据。可以自定义检测机制和自定义时间间隔
  • 实时绘图:展示,读取数据绘图,支持graph,map,screen,幻灯片(slide show)
  • 告警:(升级告警,规定时间内内解决不了的事情往上传)
  • 数据存储:数据库有mysql,pgsql,时间序列数据库等等

Zabbix监控功能

主机的性能监控、网络设备性能监控、数据库性能监控、多种告警方式、详细的报表图表绘制 监控主机zabbix有专用的agent,可以监控Linux,Windows,FreeBSD等 。 监控网络设备zabbix通过SNMP,ssh(不多用) 可监控对象

  • 设备:服务器,路由器,交换机
  • 软件:OS,网络,应用程序
  • 主机性能指标监控
  • 故障监控: down机,服务不可用,主机不可达

1.2 zabbix监控原理

zabbix agent安装在被监控的主机上,zabbix agent 负责定期收集客户端本地各项数据,并发送至zabbix server 端,zabbix server收到数据后,将数据存储到数据库中,用户基于zabbix WEB可以看到数据在前端展现图像。

当zabbix 监控某个具体的项目,该项目会设置一个触发器阈值,当被监控的指标超过该触发器设定的阈值,会进行一些必要的动作,动作包括:发送信息(邮件、微信、短信)、发送命令(shell 命令、reboot、 restart、 install 等)。

用户可以基于zabbix-web可以在WEBUI界面中查看展现的数据图像,以及进行相关的配置管理用户还可以在WEBUI界面中设置监控项的触发器,如被监控的数据指标超过触发器设定的阈值,会进行发送通知信息或者一些应急操作指令。

zabbix优缺点

Zabbix 优点:

1、监控模版可以包含多个指标,在不涉及自定义采集脚本等其他方式的情况下,使用SNMP、Zabbix Agent 的情况下可以做到开箱即用;

2、指标和触发器(Zabbix的告警规则叫触发器)的关联交互挺好用;

3、宏和宏变量的使用可以大大的提高告警的便捷性,基本可以做到每个label 不同的阈值;

4、Zabbix 的指标采集挺丰富的,包括采集间隔,是否要一直采集还是每天固定时间段来采集;

5、Zabbix 的管理页面,这个不愧是企业级软件,Zabbix 很大一部分的优势是靠它来体现的。

zabbix缺点:

1、Zabbix 架构原生是单点,没有集群方案,官方推荐的是使用keepalived 来进行3个点的负载均衡,这个方案在现在来说还是有很大的优化空间的。

2、Zabbix 的数据存储使用关系型数据库,在 Zabbix 刚发布的时候,这个没的选择,但放在现在这是个很大的问题,当指标数量增加以后,数据的存储空间、查询时间都变成了一个恐怖的事情。当前使用了6TiB的空间来存储了每帧80万条数据,采集间隔一分钟,详细数据1个月,历史数据大概1年半的数据,Prometheus 存储比这个节省多了。当然zabbix 也可以支持更大的数据收集规模,只是不知道资源会按什么比例增长。

3、升级复杂,体验了4.4.0升级到4.4.10以后,升级太麻烦,使用Zabbix 你的团队最好配置一个DBA 来处理各种问题。

4、Zabbix 和 Grafana 的结合不太好,语句写起来挺生硬的,也能用,但是不如Prometheus 灵活。

对于prometheus 这个月我也做了例行升级,大概花了一个小时左右,我升级完了十多个实例,配套的Thanos 和存储数据的Minio。和Zabbix 相比,这太让人舒服了。

1.3 zabbix常见的五个程序

zabbix由以下几个组件部分构成:

  • Zabbix Server:负责接收agent发送的报告信息的核心组件,所有配置,统计数据及操作数据均由其组织进行;
  • Database Storage:专用于存储所有配置信息,以及由zabbix收集的数据;
  • Web interface:zabbix的GUI接口,通常与Server运行在同一台主机上;
  • Proxy:可选组件,常用于分布监控环境中,代理Server收集部分被监控端的监控数据并统一发往Server端;
  • Agent:部署在被监控主机上,负责收集本地数据并发往Server端或Proxy端;

zabbix监控部署在系统中,包含常见的五个程序: zabbix server、 zabbix agent、 zabbix proxy、zabbix get、zabbix sender 等。

(1) zabbix server: zabbix 服务端守护进程,其中zabbix_agent、 zabbix_ get、zabbix_sender、 zabbix_proxy的数据最终都提交给zabbix server;

(2) zabbix agent: 客户端守护进程,负责收集客户端数据,例如:收集CPU负载、内存、硬盘使用情况等;

(3)zabbi xproxy: zabbix分布式代理守护进程,通常大于500台主机,需要进行分布式监控架构部署;

(4)zabbix get: zabbix 数据接收工具,单独使用的命令,通常在server 或者proxy端执行获取远程客户端信息的命令;

(5)zabbix sender: zabbix 数据发送工具,用户发送数据给server 或proxy端,通常用户耗时比较长的检查。

1.4 zabbix端口号

  • zabbix服务端zabbix_server 默认使用10051 端口。
  • 客户端zabbix_agent2 默认使用10050 端口。

二、安装zabbix 5.0

建议使用5.0版本/4.6版本/4.8 版本,不使用6.0。

实验环境:

节点IP安装服务
zabbix-server192.168.142.10zabbix-server-mysql、zabbix-agent
zabbix-agent192.168.142.20zabbix-agent2

2.1 部署 zabbix 服务端(端口号10051)

zabbix-server内存至少2G,推荐4G。

zabbix 服务端同时安装zabbix-server-mysql和zabbix-agent,因为服务端所在主机自己也要被监控。

 ##1、关闭防火墙,修改主机名
 systemctl disable --now firewalld
 setenforce 0
 hostnamectl set-hostname zbx-server
 su
 ​
 ##2、获取 zabbix 的下载源
 rpm -ivh https://mirrors.aliyun.com/zabbix/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm 
 ​
 ##3、更换 zabbix.repo 为阿里源,安装zabbix-server-mysql和zabbix-agent
 cd /etc/yum.repos.d
 sed -i 's#http://repo.zabbix.com#https://mirrors.aliyun.com/zabbix#' zabbix.repo
 ​
 yum clean all && yum makecache
 ​
 yum install -y zabbix-server-mysql zabbix-agent
 ​
 #安装SCL(Software Collections),便于后续安装高版本的 php,默认 yum 安装的 php 版本为 5.4,
 版本过低,zabbix 5.0 版本对 php 版本最低要 7.2.0 版本。SCL 可以使得在同一台机器上使用多个版本
 的软件,而又不会影响整个系统的依赖环境。软件包会安装在 /etc/opt/rh 目录下。
 yum install -y centos-release-scl 
 ​
 ##4、修改 zabbix-front 前端源,安装 zabbix 前端环境到 scl 环境下
 vim /etc/yum.repos.d/zabbix.repo
 ......
 [zabbix-frontend]
 ......
 enabled=1          #开启安装源
 ......
 ​
 yum install -y zabbix-web-mysql-scl zabbix-apache-conf-scl   #安装zabbix前端环境到 scl 环境下
 ​
 ##5、安装 zabbix 所需的数据库
 yum install -y mariadb-server mariadb
 ​
 systemctl enable --now mariadb    #将数据库设置为开机自启,并立即启动
 ​
 mysql_secure_installation         #初始化数据库,并设置密码,如 abc123
 ​
 ##6、添加数据库用户,以及 zabbix 所需的数据库信息
 mysql -u root -pabc123      #登录数据库
 ​
 CREATE DATABASE zabbix character set utf8 collate utf8_bin;    #设置utf8字符集
 GRANT all ON zabbix.* TO 'zabbix'@'%' IDENTIFIED BY 'zabbix';  #创建并授权用户,使得zabbix可以访问数据库
 flush privileges;   #刷新权限
 ​
 #查询已安装的zabbix-server-mysql的文件列表,找到 sql.gz 文件的位置
 rpm -ql zabbix-server-mysql
 ​
 #导入数据库信息,使用zcat将sql.gz文件导入数据库
 zcat /usr/share/doc/zabbix-server-mysql-5.0.25/create.sql.gz | mysql -uroot -pabc123 zabbix      #导入sql.gz文件
 ​
 ##7、修改 zabbix-server 配置文件,修改数据库的密码
 vim /etc/zabbix/zabbix_server.conf 
 ......
 DBPassword=zabbix     #124行,取消注释,指定 zabbix 数据库的密码,DBPassword的值是数据库授权zabbix用户的密码。
 ​
 ##8、修改 zabbix 的 php 配置文件
 vim /etc/opt/rh/rh-php72/php-fpm.d/zabbix.conf
 ......
 php_value[date.timezone] = Asia/Shanghai        #25行,取消注释,修改时区
 ​
 ##9、启动 zabbix 相关服务
 systemctl restart zabbix-server zabbix-agent httpd rh-php72-php-fpm
 systemctl enable zabbix-server zabbix-agent httpd rh-php72-php-fpm
 netstat -natp | grep zabbix
 ​
 ##10、浏览器访问
 浏览器访问:http://192.168.142.10/zabbix
 点击下一步,设置数据库的密码 zabbix
 安装完成后,默认的登录账号和密码为:Admin/zabbix
 设置文件界面:点击左边菜单栏的【User settings】,【Language】选择 Chinese(zh_CN),再点击 Update 更新。
 ​
 ##11、解决 zabbix-server Web页面中文乱码问题
 yum install -y wqy-microhei-fonts
 ​
 \cp -f /usr/share/fonts/wqy-microhei/wqy-microhei.ttc /usr/share/fonts/dejavu/DejaVuSans.ttf

1、关闭防火墙,修改主机名

Snipaste_2022-11-17_09-44-47.png 2、获取 zabbix 的下载源

Snipaste_2022-11-16_10-57-38.png

3、更换 zabbix.repo 为阿里源,安装zabbix-server-mysql、zabbix-agent和SCL

Snipaste_2022-11-16_11-00-58.png

Snipaste_2022-11-16_11-03-58.png

Snipaste_2022-11-16_11-07-24.png

4、修改 zabbix-front 前端源,安装 zabbix 前端环境到 scl 环境下。

修改/etc/yum.repos.d/zabbix.repo文件:

Snipaste_2022-11-16_11-16-03.png

Snipaste_2022-11-16_11-17-46.png

5、安装zabbix所需的数据库

Snipaste_2022-11-16_11-19-58.png

Snipaste_2022-11-16_11-26-22.png

Snipaste_2022-11-16_11-25-40.png

6、添加数据库用户,以及 zabbix 所需的数据库信息

Snipaste_2022-11-16_11-29-33.png

Snipaste_2022-11-16_11-46-44.png

Snipaste_2022-11-16_11-48-44.png

7、修改 zabbix-server 配置文件/etc/zabbix/zabbix_server.conf,修改数据库的密码。

Snipaste_2022-11-16_11-50-14.png

8、修改 zabbix 的 php 配置文件,/etc/opt/rh/rh-php72/php-fpm.d/zabbix.conf

Snipaste_2022-11-16_11-51-43.png

9、启动 zabbix 相关服务

Snipaste_2022-11-16_11-53-25.png

10、浏览器访问 http://192.168.142.10/zabbix

Snipaste_2022-11-16_11-54-50.png

Snipaste_2022-11-16_11-55-01.png

Snipaste_2022-11-16_11-55-49.png

Snipaste_2022-11-16_12-33-29.png

Snipaste_2022-11-16_12-33-41.png

Snipaste_2022-11-16_12-34-31.png

Snipaste_2022-11-16_12-35-05.png

Snipaste_2022-11-16_13-44-22.png

Snipaste_2022-11-16_13-44-53.png

11、解决 zabbix-server Web页面中文乱码问题

Snipaste_2022-11-16_13-48-07.png

Snipaste_2022-11-16_13-48-42.png

2.2 部署zabbix 客户端(端口号10050)

zabbix 5.0版本采用golang 语言开发的新版本客户端agent2 。

zabbix 服务端 zabbix_server 默认使用 10051 端口,客户端 zabbix_agent2 默认使用 10050 端口。

 ##1、关闭防火墙,修改主机名
 systemctl disable --now firewalld
 setenforce 0
 hostnamectl set-hostname zbx-agent01
 su
 ​
 ##2、服务端和客户端都配置时间同步,使用阿里云的时钟源
 yum install -y ntpdate
 ntpdate -u ntp.aliyun.com
 ​
 ##3、客户端配置时区,与服务器保持一致
 mv /etc/localtime{,.bak}
 ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
 ​
 date
 ​
 ##4、设置 zabbix 的下载源,安装 zabbix-agent2
 rpm -ivh https://mirrors.aliyun.com/zabbix/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm 
 ​
 cd /etc/yum.repos.d
 sed -i 's#http://repo.zabbix.com#https://mirrors.aliyun.com/zabbix#'  /etc/yum.repos.d/zabbix.repo  
 ​
 yum install -y zabbix-agent2   
 ​
 ##5、修改 agent2 配置文件
 vim /etc/zabbix/zabbix_agent2.conf
 ......
 Server=192.168.142.10           #80行,指定 zabbix 服务端的 IP 地址
 ServerActive=192.168.142.10      #120行,指定 zabbix 服务端的 IP 地址
 Hostname=zbx-agent01            #131行,指定当前 zabbix 客户端的主机名
 ​
 ##6、启动 zabbix-agent2
 systemctl start zabbix-agent2
 systemctl enable zabbix-agent2
 ​
 netstat -natp | grep zabbix
tcp6       0      0 :::10050                :::*                    LISTEN      1988/zabbix_agent2
 ​
 ​
 ##7、在服务端验证 zabbix-agent2 的连通性
 yum install -y zabbix-get    #服务端,安装 zabbix 主动获取数据的命令,get指令
 ​
 zabbix_get -s '192.168.142.20' -p 10050 -k 'agent.ping'
 1              #服务端对客户端进行连通性测试,返回1表示连通
 ​
 zabbix_get -s '192.168.142.20' -p 10050 -k 'system.hostname'
 zbx-agent01     #返回客户端的主机名说明正常连通

1、关闭防火墙,修改主机名

Snipaste_2022-11-17_09-45-25.png

2、服务端和客户端都配置时间同步
3、客户端配置时区,与服务器保持一致

Snipaste_2022-11-16_13-58-52.png

4、设置 zabbix 的下载源,安装 zabbix-agent2

Snipaste_2022-11-16_14-01-36.png

5、修改 agent2 配置文件,/etc/zabbix/zabbix_agent2.conf

Snipaste_2022-11-16_14-03-12.png

Snipaste_2022-11-16_14-04-13.png

Snipaste_2022-11-17_09-08-47.png

6、启动 zabbix-agent2

Snipaste_2022-11-17_09-10-46.png

7、在服务端验证 zabbix-agent2 的连通性

Snipaste_2022-11-17_09-13-36.png

Snipaste_2022-11-17_09-28-45.png

2.3 将客户端加入服务端的监控主机中

在 Web 页面中添加 agent 主机。

 1.点击左边菜单栏【配置】中的【主机】,点击【创建主机】
 【主机名称】设置成 zbx-agent01
 【可见的名称】设置成 zbx-agent01-192.168.142.20
 【群组】选择 Linux server
 【Interfaces】的【IP地址】设置成 192.168.142.20
 ​
 2.再点击上方菜单栏【模板】
 【Link new tamplates】搜索 Linux ,选择 Template OS Linux by Zabbix agent
 点击 【添加】

1、点击左边菜单栏【配置】中的【主机】,点击【创建主机】

Snipaste_2022-11-17_09-31-17.png

Snipaste_2022-11-17_09-33-37.png

Snipaste_2022-11-17_09-34-42.png

2、再点击上方菜单栏【模板】

Snipaste_2022-11-17_09-37-19.png

Snipaste_2022-11-17_09-39-04.png

Snipaste_2022-11-17_09-39-30.png

Snipaste_2022-11-17_09-40-42.png

概述:

zabbix工作原理(工作流程):

  • zabbix-agent 客户端,部署在被监控的对象主机上,负责定期收集监控数据,发送给zabbix-server 端;
  • zabbix-server 收到数据后会将数据存储在数据库中。
  • 用户可以基于zabbix-web可以在WEB UI界面中查看展现的数据图像,以及进行相关的配置管理 用户还可以在WEBUI界面中设置监控项的触发器,如被监控的数据指标超过触发器设定的阈值,会进行发送通知信息或者一些应急操作指令。

这里agent收集数据分为主动和被动两种模式:

  • 主动:agent请求server获取主动的监控项列表,并主动将监控项内需要检测的数据提交给server/proxy
  • 被动:server向agent请求获取监控项的数据,agent返回数据。