消息中间件该如何实现高可用架构

好，问题来了！现在你感觉一个MQ中间件应该如何实现高可用呢？

这里的方式有很多种，比如说数据多副本冗余，集群镜像同步机制，我们就抛开具体的技术来从本质层面思考一下MQ集群实现高可用的几种方式。

先来看下面的一张图，假设我们写到MQ的数据都被多副本冗余了，也就是你写的每一条消息都被复制到了其他的机器上去了。

那么此时任何一台机器宕机，似乎都不会影响我们跟MQ继续通信，而且写出去的数据似乎也都还在。

上面的图里，MQ采用集群模式部署到了2台机器上去，然后生产者给其中一台机器写入一条消息，该机器自动同步复制给另外一台机器。

此时数据在2台机器上，就有2个副本了，那么如果第一台机器宕机了，会影响我们吗？

答案是：不会。

因为数据本身是多副本冗余的，此时消费者完全可以从第二台机器消费到这条消息，并且生产者还可以继续给第二台机器写入消息，数据没丢失。

而且，系统根本不用中断流程，还可以继续运行，我们看下面的图。

这种感觉是不是很棒？实际上这种MQ集群化部署架构以及数据多副本冗余机制，是非常常见的一种高可用架构。

Kafka这个极为优秀的消息中间件，就是采用的这种架构保证高可用、数据容错性。

但是这里你要思考另外几个问题，第一个就是：你在写数据到其中一台机器的时候，是不是得要求，必须得让那台机器复制数据到另外一台机器了，保证集群里一定有这条数据双副本了，才可以认为本次写成功了？

没错，假如你要是不能保证这一点，比如你就写数据给了其中一台机器，然后他还没来得及复制给另外一台机器呢，直接第一台机器就宕机了。

此时虽然你可以继续基于第二台机器发送消息和消费消息，但是你刚才发送的一条消息就丢失了。

大家看下面的图来理解一下这个场景。

所所以对于采用这种机制的时候，你必须得让生产者通过一些参数的设置，保证说写一条消息到某台机器，他必须同步这条消息到另外一台机器成功，集群里有双副本了，然后此时才可以认为这条消息写成功了。

但凡刚写一台机器他就宕机，还没来得及复制到另外一台机器的话，本次写应该报错失败，然后你应该重试再次写入数据到MQ集群里去。

大家看看下面的图。只要你一次写成功了，他就保证肯定已经同步数据为双副本了，此时哪怕一台机器宕机，数据不会丢失，生产和消费都可以有条不紊的继续进行。

第二个问题，假如说现在你的集群中本来有两台机器，现在宕机了其中的一台，只有一台机器了，你还能允许你的生产者对唯一的一台机器继续写入数据吗？

答案是：否。

因为如果集群里只有一台机器可以承载写入，那么万一剩余的一台机器又宕机了呢？是不是还是会导致数据丢失，集群完蛋？

所以说，你的生产者同理应该基于参数设置一下，集群里必须有超过2台机器可以接收你的数据副本复制。

否则如果只有1台机器可以接受你的数据副本复制的话，那么还是算了。

大家看看下面的图，感受一下那个场景。

假设集群里有3台机器，那么其中一台宕机了，你后续再写入另外一台的时候，判断一下集群里还有剩余两台机器，足以保证数据双副本的高可用性和容错性，所以可以继续正常的写入数据到MQ集群里去。

实际上，上面说的那一整套的机制，在Kafka里都可以采用，他有对应的一些参数可以配置数据有几个副本，包括你每次写入必须复制到几台机器才可以算成功，否则就要重新发送，以及你的集群剩余机器必须可以承载几个副本才能继续写入数据。

通过这一整套方案的设计和基于具体技术的落地，才可以保证在集群化部署的情况下，集群必须有几台机器承载多副本，同时数据写入之后必须是保证多副本冗余的。

此时，任何机器宕机，数据都不会丢失，还可以正常让系统继续运行。