一、 Keepalive 基础

官网：keepalived.org/

基于vrrp协议完成地址流动
为vip地址所在的节点生成ipvs规则(在配置文件中预先定义)
为ipvs集群的各RS做健康状态检测
基于脚本调用接口完成脚本中定义的功能，进而影响集群事务，以此支持nginx、haproxy等服务

1. VRRP相关技术

VRRP（虚拟路由冗余协议）

通告
- 单播
- 组播
- 广播
工作方式
- 抢占式
- 非抢占式
- 延迟抢占模式
安全认证
- 无认证
- 简单字符认证：预共享密钥
- MD5
工作模式
- 主/备：单虚拟路径器
- 主/主：主/备（虚拟路由器1），备/主（虚拟路由器2）

2. VRRP相关术语

虚拟路由器：Virtual Router 不是真实存在，虚构出来的
- 虚拟路由器标识：VRID(0-255)，唯一标识虚拟路由器
- VIP：Virtual IP 对外提供服务的地址
- VMAC：Virutal MAC (00-00-5e-00-01-VRID)
物理路由器：
- master：主设备
- backup：备用设备
- priority：优先级

3. keepalived架构

keepalived架构.png .

用户空间核心组件：
1. vrrp stack：VIP消息通告虚拟ip
2. checkers：监测real server（简单来说就是监控后端真实服务器的服务）是否存活
3. system call：实现 vrrp 协议状态转换时调用脚本的功能
4. SMTP：邮件组件（报警邮件）
5. IPVS wrapper：生成IPVS规则（直接生成ipvsadm）
6. Netlink Reflector：网络接口（将虚拟地址ip（vip）地址飘动）
7. WatchDog：监控进程（整个架构是否有问题）
控制组件：提供keepalived.conf 的解析器，完成Keepalived配置
IO复用器：针对网络目的而优化的自己的线程抽象
内存管理组件：为某些通用的内存管理功能（例如分配，重新分配，发布等）提供访问权限

二、安装 keepalive

1. yum安装

[root@node6 ~]#  yum  install   keepalived  -y

[root@node6 ~]#  rpm -qc keepalived    //配置文件
/etc/keepalived/keepalived.conf
/etc/sysconfig/keepalived

[root@node6 ~]#  vim /etc/keepalived/keepalived.conf   //修改网卡名称
    interface eth33

2. 编译安装

//安装依赖包环境
yum install gcc curl openssl-devel libnl3-devel net-snmp-devel  -y 

//官网下载安装包（ https://keepalived.org/download.html ）
wget https://keepalived.org/software/keepalived-2.2.2.tar.gz

//解压安装包
tar  xf   keepalived-2.2.2.tar.gz
cd   keepalived-2.2.2/

//编译安装
./configure --prefix=/usr/local/keepalived
make   &&  make  install

//yum安装会自动生成service文件
//编译好后，服务起不来是因为没有配置文件  /etc/keepalived/keepalived.conf
//复制配置文件
mkdir    /etc/keepalived 
cp /usr/local/keepalived/etc/keepalived/keepalived.conf  /etc/keepalived/keepalived.conf 

//修改配置文件21行 的网卡名称，否则起不来
sed  -i   's/eth0/ens33/'

三、 Keepalived 相关文件

软件包名：keepalived
主程序文件：/usr/sbin/keepalived
主配置文件：/etc/keepalived/keepalived.conf
配置文件示例：
- yum： /usr/share/doc/keepalived-1.3.5/samples
- 编译：/usr/share/doc/keepalived/
Unit File：/lib/systemd/system/keepalived.service
Unit File的环境配置文件：/etc/sysconfig/keepalived CentOS

1. 配置组成

/etc/keepalived/keepalived.conf 配置组成

GLOBAL CONFIGURATION （全局配置）
- 定义邮件配置、route_id 、vrrp配置、组播地址等
VRRP CONFIGURATION （虚拟路由器设置）
- 定义vrrp协议中的每个vrrp虚拟路由器的规则，基本信息
LVS CONFIGURATION（lvs设置）
- lvs调度服务器的规则设置和真实服务器的设置

2. 全局配置内容详解

keep全局.png .

global_defs {
 notification_email {
 root@localhost
 //keepalived 发生故障切换时邮件发送的目标邮箱，可以按行区分写多个
 root@localhost
  360601212@qq.com 
 }
 notification_email_from keepalived@localhost   //发邮件的地址
 smtp_server 127.0.0.1      //邮件服务器地址
 smtp_connect_timeout 30    //邮件服务器连接timeout
 router_id   LVS01          //每个keepalived主机唯一标识，建议使用当前主机名，但多节点重名不影响
 vrrp_skip_check_adv_addr   //对所有通告报文都检查，会比较消耗性能，启用此配置后，如果收到的通告报文和上一个报文是同一个路由器，则跳过检查，默认值为全检查
 vrrp_strict                //严格遵守VRRP协议,启用此项后以下状况将无法启动服务:1.无VIP地址 2.配置了单播邻居 3.在VRRP版本2中有IPv6地址，开启动此项并且没有配置vrrp_iptables时会自动开启iptables防火墙规则，默认导致VIP无法访问,建议不加此项配置。
 vrrp_garp_interval 0       //gratuitous ARP messages 免费ARP报文发送延迟，0表示不延迟
 vrrp_gna_interval 0        //unsolicited NA messages （不请自来）消息发送延迟
 vrrp_mcast_group4 225.0.0.18 //指定组播IP地址范围：224.0.0.0到239.255.255.255,默认值：224.0.0.18 
 vrrp_iptables              //此项和vrrp_strict同时开启时，则不会添加防火墙规则,如果无配置vrrp_strict项,则无需启用此项配置
}

注意：启用 vrrp_strict 时，不能启用单播

3. 虚拟路由器配置内容详解

keep虚拟路由.png .

`格式`
vrrp_instance <STRING> {    //<String>为vrrp的实例名,一般为业务名称
 配置参数
 ......
 }

`配置参数`
state MASTER|BACKUP    //当前节点在此虚拟路由器上的初始状态，状态为MASTER或者BACKUP
interface IFACE_NAME   //绑定为当前虚拟路由器使用的物理接口，如：eth0,bond0,br0,可以和VIP不在一个网卡
virtual_router_id VRID //每个虚拟路由器惟一标识，范围：0-255，每个虚拟路由器此值必须唯一，否则服务无法启动，同属一个虚拟路由器的多个keepalived节点必须相同,务必要确认在同一网络中此值必须唯一
priority 100           //当前物理节点在此虚拟路由器的优先级，范围：1-254，值越大优先级越高,每个keepalived主机节点此值不同（主高 从低）
advert_int 1           //vrrp通告的时间间隔，默认1s，主告诉从自己还活着
authentication {       //认证机制
 auth_type AH|PASS     //AH为IPSEC认证(不推荐),PASS为简单密码(建议使用)
 auth_pass <PASSWORD>  //预共享密钥，仅前8位有效，同一个虚拟路由器的多个keepalived节点必须一样
}
virtual_ipaddress {    //虚拟IP,生产环境可能指定上百个IP地址
 192.168.200.100       //指定VIP，不指定网卡，默认为,注意：不指定/prefix,默认为/32
 192.168.200.101/24 dev eth1   //指定VIP的网卡，建议和interface指令指定的岗卡不在一个网卡
 192.168.200.102/24 dev eth2 label eth2:1   //指定VIP的网卡label   ifconfig eth2:1   192.168.200.102/24
}
track_interface {      //配置监控网络接口，一旦出现故障，则转为FAULT状态实现地址转移
 eth0
 eth1
 …
}

4. lvs配置内容详解

keep lvs.png .

virtual_server 192.168.91.188 80 {    //调度器ip 端口
    delay_loop 6            //健康间隔时间6秒
    lb_algo rr              //调度算法轮询
    lb_kind NAT              //lvs模式为NAT 
    persistence_timeout 50  //连接保持时间改为50
    protocol TCP            //采用TCP协议
    
 real_server 192.168.91.103 80 {       //真实服务器地址
        weight 1                    //节点权重
        TCP_CHECK {                 //检查方式
            connect_port 80         //检查目标端口
            connect_timeout 3       //连接超时 
            nb_get_retry 3          //重试次数
            delay_before_retry 3    //重试间隔时间
        }
    }

四、实操：LVS + Keepalive

lvs+keepalive图.png

vip：192.168.204.188
lvs+keepalived主：192.168.204.10
lvs+keepalived从：192.168.204.20
web1：192.168.204.30
web2：192.168.204.40
客户端：192.168.204.50

lvs+keepalived主：

[root@node1 ~]#  systemctl stop firewalld
[root@node1 ~]#  setenforce 0
[root@node1 ~]#  yum install ipvsadm keepalived -y

[root@node1 ~]#  ipvsadm-save > /etc/sysconfig/ipvsadm
[root@node1 ~]#  systemctl start ipvsadm.service

[root@node1 ~]#  cd /etc/keepalived/
[root@node1 keepalived]#  ls
keepalived.conf
[root@node1 keepalived]#  cp keepalived.conf keepalived.conf.bak   //备份
[root@node1 keepalived]#  vim keepalived.conf   //修改配置文件

[root@node1 keepalived]#  systemctl restart keepalived.service
[root@node1 keepalived]#  ip a    //可能会有延迟

//将配置文件拷入 从服务器
[root@node1 keepalived]#  scp keepalived.conf 192.168.204.20:/etc/keepalived/

lvs+keepalived从：

[root@node2 ~]#  systemctl stop firewalld
[root@node2 ~]#  setenforce 0
[root@node2 ~]#  yum install ipvsadm keepalived -y

[root@node2 ~]#  ipvsadm-save > /etc/sysconfig/ipvsadm
[root@node2 ~]#  systemctl start ipvsadm.service

[root@node2 ~]#  cd /etc/keepalived/
[root@node2 keepalived]#  vim keepalived.conf     //修改配置文件

[root@node2 keepalived]#  systemctl restart keepalived.service

web1：

[root@node3 ~]#  systemctl stop firewalld
[root@node3 ~]#  setenforce 0
[root@node3 ~]#  yum install httpd -y
[root@node3 ~]#  vim /etc/httpd/conf/httpd.conf   //关闭长连接
   keepalive off
[root@node3 ~]#  systemctl start httpd
[root@node3 ~]#  cd /var/www/html/
[root@node3 html]#  echo 7-3 > index.html

[root@node3 html]#  vim /etc/sysctl.conf
   net.ipv4.conf.all.arp_ignore = 1
   net.ipv4.conf.all.arp_announce = 2
   net.ipv4.conf.default.arp_ignore = 1
   net.ipv4.conf.default.arp_announce = 2
   net.ipv4.conf.lo.arp_ignore = 1
   net.ipv4.conf.lo.arp_announce = 2
[root@node3 html]#  sysctl -p
[root@node3 html]#  ifconfig ens33:0 192.168.204.188/24

web2：

[root@localhost ~]#  systemctl stop firewalld
[root@localhost ~]#  setenforce 0
[root@localhost ~]#  yum install httpd -y
[root@localhost ~]#  vim /etc/httpd/conf/httpd.conf  //关闭长连接
   keepalive off
[root@localhost ~]#  systemctl start httpd
[root@localhost ~]#  cd /var/www/html/
[root@localhost html]#  echo 7-4 > index.html

[root@localhost html]#  vim /etc/sysctl.conf
   net.ipv4.conf.all.arp_ignore = 1
   net.ipv4.conf.all.arp_announce = 2
   net.ipv4.conf.default.arp_ignore = 1
   net.ipv4.conf.default.arp_announce = 2
   net.ipv4.conf.lo.arp_ignore = 1
   net.ipv4.conf.lo.arp_announce = 2
[root@localhost html]#  sysctl -p
[root@localhost html]#  ifconfig ens33:0 192.168.204.188/24

客户端验证

模拟主服务器挂了，后端能否正常运行
[root@node1 keepalived]#  systemctl stop keepalived.service

[root@node5 ~]#  curl 192.168.204.188
7-3
[root@node5 ~]#  curl 192.168.204.188
7-4
[root@node5 ~]#  curl 192.168.204.188
7-3
[root@node5 ~]#  curl 192.168.204.188
7-4

五、调优

1. 调整工作方式

默认是立即抢占，会造成两次网络动荡，建议根据情况进行调整

只有立即抢占模式的是一个master一个backup；不抢占和延迟抢占 state需全部设置为backup

1.1 实验：不抢占

nopreempt         
//在虚拟路由器设置中添加此行，改为不抢占

1.2 实验：延迟抢占

preempt_delay 30  
//在虚拟路由器设置中添加此行，改为延迟抢占。指定抢占延迟时间为30s，默认延迟300s

延迟抢占.png .

2. 单播多播地址

2.1 实验：修改多播

vrrp_mcast_group4 234.6.6.6
//在全局配置中添加此行

2.2 实验：修改单播

`主服务器`
//在虚拟路由器设置中添加
 unicast_src_ip 192.168.204.10     //本机IP
 unicast_peer {
 192.168.204.20    //指向对方主机IP 如果有多个keepalived,在下面加其它节点的IP
 }

`从服务器`
//在虚拟路由器设置中添加
 unicast_src_ip 192.168.204.20     //本机IP
 unicast_peer {
 192.168.204.10    //指向对方主机IP 如果有多个keepalived,在下面加其它节点的IP
 }

单播1.png 单播2.png

3. 通知脚本

配置邮箱

4. 日志功能

开启单独日志功能

[root@node1 keepalived]#  cd /etc/keepalived/
[root@node1 keepalived]#  mkdir log   //创建一个单独存放日志的文件夹

[root@node1 keepalived]#  vim /etc/sysconfig/keepalived
KEEPALIVED_OPTIONS="-D -S 5"

[root@node1 keepalived]#  vim /etc/rsyslog.conf
   local5.*                        /etc/keepalived/log/k.log
[root@node1 keepalived]#  systemctl restart keepalived.service
[root@node1 keepalived]#  systemctl restart rsyslog.service

[root@node1 keepalived]#  tree
.
├── keepalived.conf
├── keepalived.conf.bak
└── log
    └── k.log    //生成日志

1 directory, 3 files

六、 Keepalive 脑裂

什么是脑裂？

在高可用（HA）系统中，当联系2个节点的“心跳线”断开时，本来为一整体、动作协调的HA系统，就分裂成为2个独立的个体。由于相互失去了联系，都以为是对方出了故障。两个节点上的HA软件像“裂脑人”一样，争抢“共享资源”、争起“应用服务”，就会发生严重后果。共享资源被瓜分、两边“服务”都起不来了；或者两边“服务”都起来了，但同时读写“共享存储”，导致数据损坏。

都有哪些原因导致脑裂？
- 高可用服务器对之间心跳线链路发生故障，导致无法正常通信
- 心跳线坏了（包括断了，老化）
- 心跳线间连接的设备故障（网卡及交换机）
- 网卡及相关驱动坏了，ip配置及冲突问题（网卡直连）
- 高可用服务器上开启了 iptables防火墙阻挡了心跳消息传输
- 高可用服务器上心跳网卡地址等信息配置不正确，导致发送心跳失败
- 其他服务配置不当等原因，如心跳方式不同，心跳广插冲突、软件Bug等
- 多组keepalive服务器造成组播冲突
如何解决keepalived脑裂问题？
- 同时使用串行电缆和以太网电缆连接、同时使用两条心跳线路，这样一条线路断了，另外一条还是好的，依然能传送心跳消息
- 当检查脑裂时强行关闭一个心跳节点（这个功能需要特殊设备支持，如stonith、fence）相当于备节点接收不到心跳消息，通过单独的线路发送关机命令关闭主节点的电源

`模拟脑裂`
单播
[root@localhost keepalived]#iptables -A INPUT -s 192.168.204.20 -j REJECT 
//在备份主机中加入此项
[root@localhost keepalived]#ip a
//可以在主备上都发现vip地址

七、 VRRP Script

keepalived利用 VRRP Script 技术，可以调用外部的辅助脚本进行资源监控，并根据监控的结果实现优先动态调整，从而实现其它应用的高可用性功能。

keepalived可以和任何软件组合，形成高可用的架构★

1. VRRP Script 配置

分两步实现：①定义脚本； ②调用脚本。

1.1 定义脚本

vrrp_script：自定义资源监控脚本，vrrp实例根据脚本返回值，公共定义，可被多个实例调用，定义在vrrp实例之外的独立配置块，一般放在global_defs设置块之后。通常此脚本用于监控指定应用的状态。一旦发现应用的状态异常，则触发对MASTER节点的权重减至低于SLAVE节点，从而实现 VIP 切换到 SLAVE 节点。

vrrp_script <SCRIPT_NAME> {
 script <STRING>|<QUOTED-STRING>   //此脚本返回值为非0时，会触发下面OPTIONS执行
 OPTIONS 
}


`示例：`
vrrp_script   cxk   {
 script   "/opt/nginx.sh"
 interval  5     //每隔5s  执行上面的脚本 测试 nginx 是否存活 
  weight   -30   //自动减优先级  30 
  fall     2     //nginx 测试失败了 1次失败不算 需要2次失败 才认定你真的死了
  rise     2     //ngnix恢复了 测试2次都是正常 才让你变回主
}

1.2 调用脚本

track_script：调用vrrp_script定义的脚本去监控资源，定义在VRRP实例之内，调用事先定义的vrrp_script

track_script {
 SCRIPT_NAME_1
 SCRIPT_NAME_2
}

2.实操：Nginx + Keepalive

nginx+keepalive.png

vip：192.168.204.188
Nginx+keepalived主：192.168.204.10
Nginx+keepalived从：192.168.204.20
web1：192.168.204.30
web2：192.168.204.40
客户端：192.168.204.50

Nginx+keepalived主

[root@node1 ~]#  systemctl stop firewalld
[root@node1 ~]#  setenforce 0
[root@node1 ~]#  yum install epel-release.noarch -y
[root@node1 ~]#  yum install nginx -y   //安装Nginx
[root@node1 ~]#  systemctl start nginx

[root@node1 ~]#  vim   /etc/nginx/nginx.conf
    upstream web {
    server 192.168.204.30;
    server 192.168.204.40;
    }

        location / {
        proxy_pass http://web;
        }
[root@node1 ~]#  nginx -t
[root@node1 ~]#  nginx -s reload

[root@node1 ~]#  scp   /etc/nginx/nginx.conf    192.168.204.20:/etc/nginx/nginx.conf
//把Nginx配置文件拷贝给 7-2从服务器

[root@node1 ~]#  yum install keepalived -y  //安装keepalived
[root@node1 ~]#  vim /etc/keepalived/keepalived.conf

[root@node1 ~]#  vim  /etc/keepalived/ng.sh  //写脚本
   killall   -0    nginx
[root@node1 ~]#  chmod +x    /etc/keepalived/ng.sh  //添加执行权限

[root@node1 ~]#  scp  /etc/keepalived/keepalived.conf  192.168.204.20:/etc/keepalived/
//把配置文件拷贝至7-2从服务器

[root@node1 ~]#  systemctl restart keepalived.service
[root@node1 ~]#  systemctl status keepalived.service

Nginx+keepalived从

[root@node2 ~]#  systemctl stop firewalld
[root@node2 ~]#  setenforce 0
[root@node2 ~]#  yum install epel-release.noarch -y
[root@node2 ~]#  yum install nginx -y
[root@node2 ~]#  systemctl start nginx  //接收到7-1传过来的Nginx配置文件后开启服务

[root@node2 ~]#  yum install keepalived -y
[root@node2 ~]#  vim /etc/keepalived/keepalived.conf

[root@node2 ~]#  vim  /etc/keepalived/ng.sh  //写脚本
   killall   -0    nginx
[root@node2 ~]#  chmod +x    /etc/keepalived/ng.sh  //添加执行权限

[root@node2 ~]#  systemctl restart keepalived.service
[root@node2 ~]#  systemctl status keepalived.service

web1：

[root@node3 ~]#  systemctl stop firewalld
[root@node3 ~]#  setenforce 0
[root@node3 ~]#  yum install httpd -y
[root@node3 ~]#  echo  7-3 > /var/www/html/index.html
[root@node3 ~]#  systemctl start httpd

web2：

[root@localhost ~]#  systemctl stop firewalld
[root@localhost ~]#  setenforce 0
[root@localhost ~]#  yum install httpd -y
[root@localhost ~]#  echo  7-4 > /var/www/html/index.html
[root@localhost ~]#  systemctl start httpd

客户端验证

把7-1主服务器停掉后，客户端依然可以正常访问

再次把7-1开启进行验证

[root@node1 ~]#  systemctl start keepalived.service

[root@node5 ~]#  tcpdump -i ens33 -nn host 224.0.0.18

Keepalived 软件详解