Redis哨兵集群

116 阅读5分钟

哨兵原理

集群结构和作用

哨兵的结构如图:

image.png

哨兵的作用如下:

  • 监控:Sentinel 会不断检查您的master和slave是否按预期工作
  • 自动故障恢复:如果master故障,Sentinel会将一个slave提升为master。当故障实例恢复后也以新的master为主
  • 通知:Sentinel充当Redis客户端的服务发现来源,当集群发生故障转移时,会将最新信息推送给Redis的客户端

集群监控原理

Sentinel基于心跳机制监测服务状态,每隔1秒向集群的每个实例发送ping命令:

•主观下线:如果某sentinel节点发现某实例未在规定时间响应,则认为该实例主观下线

•客观下线:若超过指定数量(quorum)的sentinel都认为该实例主观下线,则该实例客观下线。quorum值最好超过Sentinel实例数量的一半。 image.png

Redis哨兵心跳机制和Redis集群内部心跳机制区别

(1)作用范围:单个Redis节点或Redis主从复制架构用哨兵心跳、Redis集群用Gossip协议内部心跳。

真实企业:Redis集群模式下哨兵和Gossip协议心跳一般同时使用,使用哨兵来监控和管理Redis节点的健康状态,并使用Redis集群内部的心跳机制来实现节点间的通信和状态同步。

(2)监测对象:哨兵心跳用于监测和管理Redis节点、Redis集群内部心跳用于Redis集群中各个节点之间的通信和状态同步。

(3)实现方式:哨兵心跳由哨兵进程周期性地向被监控的Redis节点发送PING命令,并等待节点返回PONG响应; Redis集群内部心跳机制通过Gossip协议,各个节点会周期性地向其他节点发送PING消息,并等待其他节点的响应。

哨兵判断master节点是否下线

(1)每个 sentinel 哨兵节点每隔1s 向所有的master、slave以及其他 sentinel 节点发送一个PING命令;

(2)master 节点回复 PING 命令的时间超过阈值(默认30s),则这个 master 会被 sentinel 标记为主观下线;

(3)当sentinel 哨兵节点将 master 标记为主观下线后,会向其余所有的 sentinel 发送消息询问其他sentinel是否同意该master下线;

(4)每个sentinel收到命令之后,会根据发送过来的 ip和port 检查自己判断的结果,回复自己是否认为该master节点已经下线了;

(5)sentinel收到回复的个数大于设定值,则master就被标记为客观下线。

三个定时任务

sentinel在内部有3个定时任务:

  • 每10秒每个sentinel会对master和slave执行info命令,这个任务达到两个目的:

    发现slave节点和确认主从关系

  • 每2秒每个sentinel通过master节点的channel交换信息(pub/sub)。master节点上有一个发布订阅的频道(sentinel:hello)。sentinel节点通过sentinel:top频道进行信息交换(对节点的"看法"和自身的信息),达成共识。

  • 每1秒每个sentinel对其他sentinel和redis节点执行ping操作(相互监控),这个其实是一个心跳检测,是失败判定的依据。

基于Raft算法选举领头哨兵

master客观下线,那就需要一个sentinel来负责故障转移

(1)判断客观下线的sentinel节点向其他 sentinel 节点发送自己的runid;

(2)目标sentinel回复是否同意master下线并选举领头sentinel,选择领头sentinel的过程符合先到先得的原则;

(3)当sentinel发现选自己的节点个数超过 一半以上自己就是领头节点;

(4)如果没有一个哨兵达到一半数量等一段时间重新选举。

集群故障恢复原理

一旦发现master故障,sentinel需要在salve中选择一个作为新的master,选择依据是这样的:

  • 首先会判断slave节点与master节点断开时间长短,如果超过指定值(down-after-milliseconds * 10)则会排除该slave节点
  • 然后判断slave节点的slave-priority值,越小优先级越高,如果是0则永不参与选举
  • 如果slave-prority一样,则判断slave节点的offset值,越大说明数据越新,优先级越高
  • 最后是判断slave节点的运行id大小,越小优先级越高。

当选出一个新的master后,该如何实现切换呢?

流程如下:

  • sentinel给备选的slave1节点发送slaveof no one命令,让该节点成为master
  • sentinel给所有其它slave发送slaveof 192.168.150.101 7002 命令,让这些slave成为新master的从节点,开始从新的master上同步数据。
  • 最后,sentinel将故障节点标记为slave,当故障节点恢复后会自动成为新的master的slave节点

小结

Sentinel的三个作用是什么?

  • 监控
  • 故障转移
  • 通知

Sentinel如何判断一个redis实例是否健康?

  • 每隔1秒发送一次ping命令,如果超过一定时间没有相向则认为是主观下线
  • 如果大多数sentinel都认为实例主观下线,则判定服务下线

故障转移步骤有哪些?

  • 首先选定一个slave作为新的master,执行slaveof no one
  • 然后让所有节点都执行slaveof 新master
  • 修改故障节点配置,添加slaveof 新master

RedisTemplate

在Sentinel集群监管下的Redis主从集群,其节点会因为自动故障转移而发生变化,Redis的客户端必须感知这种变化,及时更新连接信息。Spring的RedisTemplate底层利用lettuce实现了节点的感知和自动切换。

下面,我们通过一个测试来实现RedisTemplate集成哨兵机制。

引入依赖

在项目的pom文件中引入依赖:

<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-data-redis</artifactId>
</dependency>

配置Redis地址

然后在配置文件application.yml中指定redis的sentinel相关信息:

spring:
  redis:
    sentinel:
      master: mymaster
      nodes:
        - 192.168.150.101:27001
        - 192.168.150.101:27002
        - 192.168.150.101:27003

配置读写分离

在项目的启动类中,添加一个新的bean:

@Bean
public LettuceClientConfigurationBuilderCustomizer clientConfigurationBuilderCustomizer(){
    return clientConfigurationBuilder -> clientConfigurationBuilder.readFrom(ReadFrom.REPLICA_PREFERRED);
}

这个bean中配置的就是读写策略,包括四种:

  • MASTER:从主节点读取
  • MASTER_PREFERRED:优先从master节点读取,master不可用才读取replica
  • REPLICA:从slave(replica)节点读取
  • REPLICA _PREFERRED:优先从slave(replica)节点读取,所有的slave都不可用才读取master