一、 Keepalive 基础
- 基于vrrp协议完成地址流动
- 为vip地址所在的节点生成ipvs规则(在配置文件中预先定义)
- 为ipvs集群的各RS做健康状态检测
- 基于脚本调用接口完成脚本中定义的功能,进而影响集群事务,以此支持nginx、haproxy等服务
1. VRRP相关技术
VRRP(虚拟路由冗余协议)
- 通告
- 单播
- 组播
- 广播
- 工作方式
- 抢占式
- 非抢占式
- 延迟抢占模式
- 安全认证
- 无认证
- 简单字符认证:预共享密钥
- MD5
- 工作模式
- 主/备:单虚拟路径器
- 主/主:主/备(虚拟路由器1),备/主(虚拟路由器2)
2. VRRP相关术语
- 虚拟路由器:Virtual Router 不是真实存在 ,虚构出来的
- 虚拟路由器标识:VRID(0-255),唯一标识虚拟路由器
- VIP:Virtual IP 对外提供服务的地址
- VMAC:Virutal MAC (00-00-5e-00-01-VRID)
- 物理路由器:
- master:主设备
- backup:备用设备
- priority:优先级
3. keepalived架构
.
- 用户空间核心组件:
- vrrp stack:VIP消息通告 虚拟ip
- checkers:监测real server(简单来说 就是监控后端真实服务器的服务)是否存活
- system call:实现 vrrp 协议状态转换时调用脚本的功能
- SMTP:邮件组件(报警邮件)
- IPVS wrapper:生成IPVS规则(直接生成ipvsadm)
- Netlink Reflector:网络接口(将虚拟地址ip(vip)地址飘动)
- WatchDog:监控进程(整个架构是否有问题)
- 控制组件:提供keepalived.conf 的解析器,完成Keepalived配置
- IO复用器:针对网络目的而优化的自己的线程抽象
- 内存管理组件:为某些通用的内存管理功能(例如分配,重新分配,发布等)提供访问权限
二、 安装 keepalive
1. yum安装
[root@node6 ~]# yum install keepalived -y
[root@node6 ~]# rpm -qc keepalived //配置文件
/etc/keepalived/keepalived.conf
/etc/sysconfig/keepalived
[root@node6 ~]# vim /etc/keepalived/keepalived.conf //修改网卡名称
interface eth33
2. 编译安装
//安装依赖包环境
yum install gcc curl openssl-devel libnl3-devel net-snmp-devel -y
//官网下载安装包( https://keepalived.org/download.html )
wget https://keepalived.org/software/keepalived-2.2.2.tar.gz
//解压安装包
tar xf keepalived-2.2.2.tar.gz
cd keepalived-2.2.2/
//编译安装
./configure --prefix=/usr/local/keepalived
make && make install
//yum安装会自动生成service文件
//编译好后,服务起不来是因为没有配置文件 /etc/keepalived/keepalived.conf
//复制配置文件
mkdir /etc/keepalived
cp /usr/local/keepalived/etc/keepalived/keepalived.conf /etc/keepalived/keepalived.conf
//修改配置文件21行 的网卡名称,否则起不来
sed -i 's/eth0/ens33/'
三、 Keepalived 相关文件
- 软件包名:keepalived
- 主程序文件:/usr/sbin/keepalived
- 主配置文件:
/etc/keepalived/keepalived.conf - 配置文件示例:
- yum: /usr/share/doc/keepalived-1.3.5/samples
- 编译:/usr/share/doc/keepalived/
- Unit File:/lib/systemd/system/keepalived.service
- Unit File的环境配置文件:/etc/sysconfig/keepalived CentOS
1. 配置组成
/etc/keepalived/keepalived.conf 配置组成
- GLOBAL CONFIGURATION (全局配置)
- 定义邮件配置、route_id 、vrrp配置、组播地址 等
- VRRP CONFIGURATION (虚拟路由器设置)
- 定义vrrp协议中的每个vrrp虚拟路由器的规则,基本信息
- LVS CONFIGURATION(lvs设置)
- lvs调度服务器的规则设置 和 真实服务器的设置
2. 全局配置内容详解
.
global_defs {
notification_email {
root@localhost
//keepalived 发生故障切换时邮件发送的目标邮箱,可以按行区分写多个
root@localhost
360601212@qq.com
}
notification_email_from keepalived@localhost //发邮件的地址
smtp_server 127.0.0.1 //邮件服务器地址
smtp_connect_timeout 30 //邮件服务器连接timeout
router_id LVS01 //每个keepalived主机唯一标识,建议使用当前主机名,但多节点重名不影响
vrrp_skip_check_adv_addr //对所有通告报文都检查,会比较消耗性能,启用此配置后,如果收到的通告报文和上一个报文是同一个路由器,则跳过检查,默认值为全检查
vrrp_strict //严格遵守VRRP协议,启用此项后以下状况将无法启动服务:1.无VIP地址 2.配置了单播邻居 3.在VRRP版本2中有IPv6地址,开启动此项并且没有配置vrrp_iptables时会自动开启iptables防火墙规则,默认导致VIP无法访问,建议不加此项配置。
vrrp_garp_interval 0 //gratuitous ARP messages 免费ARP报文发送延迟,0表示不延迟
vrrp_gna_interval 0 //unsolicited NA messages (不请自来)消息发送延迟
vrrp_mcast_group4 225.0.0.18 //指定组播IP地址范围:224.0.0.0到239.255.255.255,默认值:224.0.0.18
vrrp_iptables //此项和vrrp_strict同时开启时,则不会添加防火墙规则,如果无配置vrrp_strict项,则无需启用此项配置
}
注意:启用 vrrp_strict 时,不能启用单播
3. 虚拟路由器配置内容详解
.
`格式`
vrrp_instance <STRING> { //<String>为vrrp的实例名,一般为业务名称
配置参数
......
}
`配置参数`
state MASTER|BACKUP //当前节点在此虚拟路由器上的初始状态,状态为MASTER或者BACKUP
interface IFACE_NAME //绑定为当前虚拟路由器使用的物理接口,如:eth0,bond0,br0,可以和VIP不在一个网卡
virtual_router_id VRID //每个虚拟路由器惟一标识,范围:0-255,每个虚拟路由器此值必须唯一,否则服务无法启动,同属一个虚拟路由器的多个keepalived节点必须相同,务必要确认在同一网络中此值必须唯一
priority 100 //当前物理节点在此虚拟路由器的优先级,范围:1-254,值越大优先级越高,每个keepalived主机节点此值不同(主高 从低)
advert_int 1 //vrrp通告的时间间隔,默认1s,主告诉从自己还活着
authentication { //认证机制
auth_type AH|PASS //AH为IPSEC认证(不推荐),PASS为简单密码(建议使用)
auth_pass <PASSWORD> //预共享密钥,仅前8位有效,同一个虚拟路由器的多个keepalived节点必须一样
}
virtual_ipaddress { //虚拟IP,生产环境可能指定上百个IP地址
192.168.200.100 //指定VIP,不指定网卡,默认为,注意:不指定/prefix,默认为/32
192.168.200.101/24 dev eth1 //指定VIP的网卡,建议和interface指令指定的岗卡不在一个网卡
192.168.200.102/24 dev eth2 label eth2:1 //指定VIP的网卡label ifconfig eth2:1 192.168.200.102/24
}
track_interface { //配置监控网络接口,一旦出现故障,则转为FAULT状态实现地址转移
eth0
eth1
…
}
4. lvs配置内容详解
.
virtual_server 192.168.91.188 80 { //调度器ip 端口
delay_loop 6 //健康间隔时间6秒
lb_algo rr //调度算法轮询
lb_kind NAT //lvs模式为NAT
persistence_timeout 50 //连接保持时间改为50
protocol TCP //采用TCP协议
real_server 192.168.91.103 80 { //真实服务器地址
weight 1 //节点权重
TCP_CHECK { //检查方式
connect_port 80 //检查目标端口
connect_timeout 3 //连接超时
nb_get_retry 3 //重试次数
delay_before_retry 3 //重试间隔时间
}
}
四、 实操:LVS + Keepalive
- vip:192.168.204.188
- lvs+keepalived主:192.168.204.10
- lvs+keepalived从:192.168.204.20
- web1:192.168.204.30
- web2:192.168.204.40
- 客户端:192.168.204.50
- lvs+keepalived主:
[root@node1 ~]# systemctl stop firewalld
[root@node1 ~]# setenforce 0
[root@node1 ~]# yum install ipvsadm keepalived -y
[root@node1 ~]# ipvsadm-save > /etc/sysconfig/ipvsadm
[root@node1 ~]# systemctl start ipvsadm.service
[root@node1 ~]# cd /etc/keepalived/
[root@node1 keepalived]# ls
keepalived.conf
[root@node1 keepalived]# cp keepalived.conf keepalived.conf.bak //备份
[root@node1 keepalived]# vim keepalived.conf //修改配置文件
[root@node1 keepalived]# systemctl restart keepalived.service
[root@node1 keepalived]# ip a //可能会有延迟
//将配置文件拷入 从服务器
[root@node1 keepalived]# scp keepalived.conf 192.168.204.20:/etc/keepalived/
- lvs+keepalived从:
[root@node2 ~]# systemctl stop firewalld
[root@node2 ~]# setenforce 0
[root@node2 ~]# yum install ipvsadm keepalived -y
[root@node2 ~]# ipvsadm-save > /etc/sysconfig/ipvsadm
[root@node2 ~]# systemctl start ipvsadm.service
[root@node2 ~]# cd /etc/keepalived/
[root@node2 keepalived]# vim keepalived.conf //修改配置文件
[root@node2 keepalived]# systemctl restart keepalived.service
- web1:
[root@node3 ~]# systemctl stop firewalld
[root@node3 ~]# setenforce 0
[root@node3 ~]# yum install httpd -y
[root@node3 ~]# vim /etc/httpd/conf/httpd.conf //关闭长连接
keepalive off
[root@node3 ~]# systemctl start httpd
[root@node3 ~]# cd /var/www/html/
[root@node3 html]# echo 7-3 > index.html
[root@node3 html]# vim /etc/sysctl.conf
net.ipv4.conf.all.arp_ignore = 1
net.ipv4.conf.all.arp_announce = 2
net.ipv4.conf.default.arp_ignore = 1
net.ipv4.conf.default.arp_announce = 2
net.ipv4.conf.lo.arp_ignore = 1
net.ipv4.conf.lo.arp_announce = 2
[root@node3 html]# sysctl -p
[root@node3 html]# ifconfig ens33:0 192.168.204.188/24
- web2:
[root@localhost ~]# systemctl stop firewalld
[root@localhost ~]# setenforce 0
[root@localhost ~]# yum install httpd -y
[root@localhost ~]# vim /etc/httpd/conf/httpd.conf //关闭长连接
keepalive off
[root@localhost ~]# systemctl start httpd
[root@localhost ~]# cd /var/www/html/
[root@localhost html]# echo 7-4 > index.html
[root@localhost html]# vim /etc/sysctl.conf
net.ipv4.conf.all.arp_ignore = 1
net.ipv4.conf.all.arp_announce = 2
net.ipv4.conf.default.arp_ignore = 1
net.ipv4.conf.default.arp_announce = 2
net.ipv4.conf.lo.arp_ignore = 1
net.ipv4.conf.lo.arp_announce = 2
[root@localhost html]# sysctl -p
[root@localhost html]# ifconfig ens33:0 192.168.204.188/24
- 客户端验证
模拟主服务器挂了,后端能否正常运行
[root@node1 keepalived]# systemctl stop keepalived.service
[root@node5 ~]# curl 192.168.204.188
7-3
[root@node5 ~]# curl 192.168.204.188
7-4
[root@node5 ~]# curl 192.168.204.188
7-3
[root@node5 ~]# curl 192.168.204.188
7-4
五、 调优
1. 调整工作方式
默认是立即抢占,会造成两次网络动荡,建议根据情况进行调整
只有立即抢占模式的是一个master一个backup;不抢占和延迟抢占 state需全部设置为backup
1.1 实验:不抢占
nopreempt
//在虚拟路由器设置中添加此行,改为不抢占
1.2 实验:延迟抢占
preempt_delay 30
//在虚拟路由器设置中添加此行,改为延迟抢占。指定抢占延迟时间为30s,默认延迟300s
.
2. 单播多播地址
2.1 实验:修改多播
vrrp_mcast_group4 234.6.6.6
//在全局配置中添加此行
2.2 实验:修改单播
`主服务器`
//在虚拟路由器设置中添加
unicast_src_ip 192.168.204.10 //本机IP
unicast_peer {
192.168.204.20 //指向对方主机IP 如果有多个keepalived,在下面加其它节点的IP
}
`从服务器`
//在虚拟路由器设置中添加
unicast_src_ip 192.168.204.20 //本机IP
unicast_peer {
192.168.204.10 //指向对方主机IP 如果有多个keepalived,在下面加其它节点的IP
}
3. 通知脚本
配置邮箱
4. 日志功能
开启单独日志功能
[root@node1 keepalived]# cd /etc/keepalived/
[root@node1 keepalived]# mkdir log //创建一个单独存放日志的文件夹
[root@node1 keepalived]# vim /etc/sysconfig/keepalived
KEEPALIVED_OPTIONS="-D -S 5"
[root@node1 keepalived]# vim /etc/rsyslog.conf
local5.* /etc/keepalived/log/k.log
[root@node1 keepalived]# systemctl restart keepalived.service
[root@node1 keepalived]# systemctl restart rsyslog.service
[root@node1 keepalived]# tree
.
├── keepalived.conf
├── keepalived.conf.bak
└── log
└── k.log //生成日志
1 directory, 3 files
六、 Keepalive 脑裂
- 什么是脑裂?
在高可用(HA)系统中,当联系2个节点的“心跳线”断开时,本来为一整体、动作协调的HA系统,就分裂成为2个独立的个体。 由于相互失去了联系,都以为是对方出了故障。两个节点上的HA软件像“裂脑人”一样,争抢“共享资源”、争起“应用服务”,就会发生严重后果。共享资源被瓜分、两边“服务”都起不来了;或者两边“服务”都起来了,但同时读写“共享存储”,导致数据损坏。
-
都有哪些原因导致脑裂?
- 高可用服务器对之间心跳线链路发生故障,导致无法正常通信
- 心跳线坏了(包括断了,老化)
- 心跳线间连接的设备故障(网卡及交换机)
- 网卡及相关驱动坏了,ip配置及冲突问题(网卡直连)
- 高可用服务器上开启了 iptables防火墙阻挡了心跳消息传输
- 高可用服务器上心跳网卡地址等信息配置不正确,导致发送心跳失败
- 其他服务配置不当等原因,如心跳方式不同,心跳广插冲突、软件Bug等
- 多组keepalive服务器造成 组播冲突
-
如何解决keepalived脑裂问题?
- 同时使用串行电缆和以太网电缆连接、同时使用两条心跳线路,这样一条线路断了,另外一条还是好的,依然能传送心跳消息
- 当检查脑裂时强行关闭一个心跳节点(这个功能需要特殊设备支持,如stonith、fence)相当于备节点接收不到心跳消息,通过单独的线路发送关机命令关闭主节点的电源
`模拟脑裂`
单播
[root@localhost keepalived]#iptables -A INPUT -s 192.168.204.20 -j REJECT
//在备份主机中加入此项
[root@localhost keepalived]#ip a
//可以在主备上都发现vip地址
七、 VRRP Script
keepalived利用 VRRP Script 技术,可以调用外部的辅助脚本进行资源监控,并根据监控的结果实现优先动态调整,从而实现其它应用的高可用性功能。
keepalived可以和任何软件组合,形成高可用的架构★
1. VRRP Script 配置
分两步实现:①定义脚本; ②调用脚本。
1.1 定义脚本
vrrp_script:自定义资源监控脚本,vrrp实例根据脚本返回值,公共定义,可被多个实例调用,定义在vrrp实例之外的独立配置块,一般放在global_defs设置块之后。通常此脚本用于监控指定应用的状态。一旦发现应用的状态异常,则触发对MASTER节点的权重减至低于SLAVE节点,从而实现 VIP 切换到 SLAVE 节点。
vrrp_script <SCRIPT_NAME> {
script <STRING>|<QUOTED-STRING> //此脚本返回值为非0时,会触发下面OPTIONS执行
OPTIONS
}
`示例:`
vrrp_script cxk {
script "/opt/nginx.sh"
interval 5 //每隔5s 执行上面的脚本 测试 nginx 是否存活
weight -30 //自动减优先级 30
fall 2 //nginx 测试失败了 1次失败不算 需要2次失败 才认定你真的死了
rise 2 //ngnix恢复了 测试2次都是正常 才让你变回主
}
1.2 调用脚本
track_script:调用vrrp_script定义的脚本去监控资源,定义在VRRP实例之内,调用事先定义的vrrp_script
track_script {
SCRIPT_NAME_1
SCRIPT_NAME_2
}
2.实操:Nginx + Keepalive
- vip:192.168.204.188
- Nginx+keepalived主:192.168.204.10
- Nginx+keepalived从:192.168.204.20
- web1:192.168.204.30
- web2:192.168.204.40
- 客户端:192.168.204.50
- Nginx+keepalived主
[root@node1 ~]# systemctl stop firewalld
[root@node1 ~]# setenforce 0
[root@node1 ~]# yum install epel-release.noarch -y
[root@node1 ~]# yum install nginx -y //安装Nginx
[root@node1 ~]# systemctl start nginx
[root@node1 ~]# vim /etc/nginx/nginx.conf
upstream web {
server 192.168.204.30;
server 192.168.204.40;
}
location / {
proxy_pass http://web;
}
[root@node1 ~]# nginx -t
[root@node1 ~]# nginx -s reload
[root@node1 ~]# scp /etc/nginx/nginx.conf 192.168.204.20:/etc/nginx/nginx.conf
//把Nginx配置文件拷贝给 7-2从服务器
[root@node1 ~]# yum install keepalived -y //安装keepalived
[root@node1 ~]# vim /etc/keepalived/keepalived.conf
[root@node1 ~]# vim /etc/keepalived/ng.sh //写脚本
killall -0 nginx
[root@node1 ~]# chmod +x /etc/keepalived/ng.sh //添加执行权限
[root@node1 ~]# scp /etc/keepalived/keepalived.conf 192.168.204.20:/etc/keepalived/
//把配置文件拷贝至7-2从服务器
[root@node1 ~]# systemctl restart keepalived.service
[root@node1 ~]# systemctl status keepalived.service
- Nginx+keepalived从
[root@node2 ~]# systemctl stop firewalld
[root@node2 ~]# setenforce 0
[root@node2 ~]# yum install epel-release.noarch -y
[root@node2 ~]# yum install nginx -y
[root@node2 ~]# systemctl start nginx //接收到7-1传过来的Nginx配置文件后开启服务
[root@node2 ~]# yum install keepalived -y
[root@node2 ~]# vim /etc/keepalived/keepalived.conf
[root@node2 ~]# vim /etc/keepalived/ng.sh //写脚本
killall -0 nginx
[root@node2 ~]# chmod +x /etc/keepalived/ng.sh //添加执行权限
[root@node2 ~]# systemctl restart keepalived.service
[root@node2 ~]# systemctl status keepalived.service
- web1:
[root@node3 ~]# systemctl stop firewalld
[root@node3 ~]# setenforce 0
[root@node3 ~]# yum install httpd -y
[root@node3 ~]# echo 7-3 > /var/www/html/index.html
[root@node3 ~]# systemctl start httpd
- web2:
[root@localhost ~]# systemctl stop firewalld
[root@localhost ~]# setenforce 0
[root@localhost ~]# yum install httpd -y
[root@localhost ~]# echo 7-4 > /var/www/html/index.html
[root@localhost ~]# systemctl start httpd
- 客户端验证
把7-1主服务器停掉后,客户端依然可以正常访问
再次把7-1开启进行验证
[root@node1 ~]# systemctl start keepalived.service
[root@node5 ~]# tcpdump -i ens33 -nn host 224.0.0.18