前言: 公司需要对hpc计算集群实现性能监控,并且使用仪表盘展示各节点主机使用情况
一.前置准备:
1.主机环境
linux主机2台 系统:Centos7.9
2.安装包
prometheus linux包
node_exporter linux包
下载地址: prometheus.io/download/
Grafan linux包(推荐使用yum安装)
下载地址: grafana.com/grafana/dow…
3.启动脚本
prometheus.service
[Unit]
Description=Prometheus
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/prometheus/prometheus --config.file=/usr/local/prometheus/prometheus.yml
Restart=on-failure
[Install]
WantedBy=multi-user.target
node_exporter.service
[Unit]
Description=Node Exporter
After=network.target
[Service]
User=nobody
Type=simple
ExecStart=/<node_exporter安装路径>/node_exporter
Restart=on-failure
[Install]
WantedBy=multi-user.target
这两个脚本放置在/etc/systemd/system/下
二.搭建Prometheus
下载Prometheus
准备一台主机作为PromeTheus宿主机,上传promeTheus包后执行如下操作
#添加启动脚本 粘贴上文脚本
vim /etc/systemd/system/prometheus.service
#ftp上传后解压包
tar xf ~/prometheus-2.54.0.linux-amd64.tar.gz /usr/local/
#修改包名
mv /usr/local/prometheus-2.54.0.linux-amd64 /usr/local/prometheus
#启动
systemctl start prometheus
#查看端口
lsof -i:9090
执行上述操作后 访问:http://服务器IP:9090 查看prometheus页面
我这配置了多台主机测试,正常完成上述步骤后Prometheus应该是up状态.
三.配置被监控主机
#添加node_exporter启动脚本
vim /etc/systemd/system/node_exporter.service
# 解压包
tar xf ~/node_exporter-1.8.2.linux-amd64.tar.gz /usr/local/
# 修改包名
mv /usr/local/node_exporter-1.8.2.linux-amd64 /usr/local/node_exporter/
# 启动node_exporter
systemctl start node_exporter
# 查看端口
ss -naltp | grep 9100
执行上述操作后 访问:http://服务器IP:9100/metrics 查看被监控端收集的信息 接下里回到Prometheus服务器配置Prometheus.yml文件
# 配置hosts 配置被监控主机 这里需要将被监控主机配置到Prometheus主机hosts文件
vim /etc/hosts
# 编辑配置文件 仿照默认配置文件 将被监控主机添加到配置文件 参考以下格式
vim /usr/local/prometheus/prometheus.yml
# 重启服务器
systemctl restart prometheus
#prometheus.yml示例格式
global:
scrape_interval: 15s
evaluation_interval: 15s
alerting:
alertmanagers:
- static_configs:
- targets: ["localhost:9093"]
rule_files:
- "/hpcapp/prometheus/rule/alert.yml"
scrape_configs:
- job_name: "prometheus"
static_configs:
- targets: ["cn646:9100"]
- targets: ["localhost:9090"]
添加后 重启prometheus完成部署
访问:http://服务器IP:9090 查看已添加的主机
四.安装grafana配置可视化页面
#yum 安装
sudo yum install -y https://dl.grafana.com/enterprise/release/grafana-enterprise-11.2.0-1.x86_64.rpm
打开 http://Gragana宿主机ip:3000 查看 第一次登录 账密 admin admin 此时弹出重置密码 重置密码后来到登录页面,开始配置数据源
创建完数据源后开始配置仪表盘 这里我们选择从官网导入预设格式
导入后选择已配置的数据源 生成仪表盘
点击编辑可以查看预设的查询函数