【redis】哨兵模式、集群脑裂

1 阅读2分钟

提问:怎么保证redis的高并发高可用?

回答:哨兵模式:实现主从集群的自动故障恢复(监控、自动故障恢复、通知)

哨兵作用:redis提供了哨兵(sentinel)机制来实现主从集群的自动故障恢复
·监控:sentinel会不断检查你的master和slave是否按预期工作
·自动故障恢复:如果master故障,sentinel会将一个slave提升为master。当故障实例恢复后也以心master为主。
·通知:sentinel充当redis客户端的服务发现来源,当集群发生故障转移时,会将最新的消息发送给redis客户端。

服务状态监控:sentinel基于心跳机制检测服务状态,每隔一秒向集群的每个实例发送ping命令
·主观下线:如果某sentinel节点发现某实例未在规定时间相应,则认为该实例主观下线
·客观下线:若超过指定数量(quonum)的sentinel都认为该实例主观下线,则该实例下线。quonum最好超过sentinel实例数量一半。

哨兵选主规则:
·首先判断主从节点断开时间长短,如超过指定值则排除该节点
·然后判断从节点的slave-priority值,越小优先级越高
·然后如果slave-priority一样,则判断slave节点的offset值,越大优先级越高
·最后是判断slave节点的运行id大小,越小优先级越高

提问:你们使用redis是单点还是集群,哪种集群?

回答:主从(1主1从)+哨兵就可以了。单节点不超过10GB内存,如果redis内存不足则可以给不同服务分配独立的redis主从节点。

提问:redis集群脑裂,该怎么解决?

回答:集群脑裂是由于主节点和从节点和sentinel处于不同的网络分区,使得sentinel没有能够心跳感知到主节点,所以通过选举的方式提升了一个从节点为主节点,这样就存在两个master,就像大脑分裂一样,这样会导致客户端还在老的主节点那里写入数据,新节点无法同步数据,当网络恢复后,sentinel会将老的主节点降为从节点,这时再从新的master同步数据,就会导致新数据丢失。
解决方案:我们可以修改redis的配置,可以设置最少的从节点数量以及缩短主从数据同步的延迟时间,达不到要求就拒绝请求,就可以避免大量数据丢失。