这是我参与「第五营」笔记创作活动的的第17天。

走进消息队列（下）

BMQ

BMQ兼容 Kafka 协议，存算分离，云原生消息队列，初期定位是承接高吞吐的离线业务场景，逐步替换掉对应的Kafka集群。

架构图

运维操作对比

具体操作	Kafka	BMQ
重启	需要数据复制，分钟级重启	重启后可直接对外服务，秒级完成
替换	需要数据复制，分钟级替换，甚至天级别	替换后可直接对外服务，秒级完成
扩容	需要数据复制，分钟级扩容，甚至天级别	扩容后可直接对外服务，秒级完成
缩容	需要数据复制，分钟级缩容，甚至天级别	缩容后可直接对外服务，秒级完成

HDFS 写文件流程

首先客户端写入前会选择一定数量的DataNode，这个数量是副本数，然后将一个文件写入到这三个节点上，切换到下一个segment之后，又会重新选择三个节点进行写入。这样一来，对于单个副本的所有segment来讲，会所记得分配到分布式文件系统的整个集群中。

文件结构

对于Kafka分片数据的写入，是通过先在Leader上面写好文件，然后同步到Follower上，所以对于同一个副本的所有Segment都在同一台机器上面。就会存在之前我们所说到的单分片过大导致负载不均衡的问题，但在BMQ集群中，因为对于单个副本来讲，是随机分配到不同的节点上面的，因此不会存在Kafka的负载不均问题。

Broker-Partition 状态机

其实对于写入的逻辑来说，我们还有一个状态机的机制，用来保证不会出现同一个分片在两个Broker上同时启动的情况，另外也能够保证一个分片的正常运行。首先，Controller做好分片的分配之后，如果在该Broker分配到了Broker，首先会start这个分片，然后进入Recover状态，这个状态主要有两个目的获取分片写入权利，也就是说，对于hdfs来讲，只会允许我一个分片进行写入，只有拿到这个权利的分片我才能写入，第二个目的是如果上次分片是异常中断的，没有进行save checkpoint，这里会重新进行一次save checkpoint，然后就进入了正常的写流程状态，创建文件，写入数据，到一定大小之后又开始建立新的文件进行写入。

写文件流程

进行CRC数据校验和参数是否合法校验，检验完成后，会把数据放入Buffer中，通过一个异步的Write Thread线程将数据最终写入到底层的存储系统当中。最后当文件到达一定大小之后，需要建立一个新的segment文件来写入。

Proxy

首先Consumer发送一个Feth Request，然后会有一个Wait流程。想象一个Topic，如果一直没有数据写入，那么，此时Consumer就会一直发送Fetch Request，如果Consumer数量过多，BMQ的server端是扛不住这个请求的，因此，我们设置了一个等待机制，如果没有fetch到指定大小的数据，那么proxy会等待一定的时间，再返回给用户侧，这样也前降低了fetch请求的IO次数，经过我们的wait流程后，我们会到我们的Cache里面去找到是否有存在我们想要的数据，如果有直接返回，如果没有，再开始去存储系统当中寻找，首先会Open这个文件，然后通过Index找到数据所在的具体位置，从这个位置开始读取数据。

多机房部署

高级特性

泳道消息

解决主干泳道流量隔离问题以及泳道资源重复创建问题。

Databus

直接使用原生SDK会有什么问题?

客户端配置较为复杂
不支持动态配置，更改配置需要停掉服务
对于latency不是很敏感的业务，batch效果不佳

Databus结构

简化消息队列客户端复杂度
解耦业务与Topic
缓解集群压力，提高吞吐

Mirror

使用Mirror最终一致的方式，解决跨Region读写问题。

Index

直接在 BMQ 中将数据结构化，配置索引 DDL，异步构建索引后，通过 Index Query 服务读出数据。

Parquet

Apache Parquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容 Hadoop 生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎支持(Hive、Impala、Drill等)。

直接在 BMQ 中将数据结构化，通过 Parquet Engine，可以使用不同的方式构建 Parquet格式文件。

RocetMQ

使用场景：例如，针对电商业务线，其业务涉及广泛，如注册、订单、库存、物流等；同时，也会涉及许多业务峰值时刻，如秒杀活动、周年庆、定期特惠等。

基本概念

名称	Kafka	RocketMQ
逻辑队列	Topic	Topic
消息体	Message	Message
标签	无	Tag
分区	Partition	ConsumerQueue
生产者	Producer	Producer
生产者集群	无	Producer Group
消费者	Consumer	Consumer
消费者集群	Consumer Group	Consumer Group
集群控制器	Controller	Nameserver

底层原理

架构

存储模型

高级特性

事务消息

延迟消息

消费重试和死信队列

走进消息队列（下） | 青训营笔记

走进消息队列（下）

BMQ

架构图

运维操作对比

HDFS 写文件流程

文件结构

Broker-Partition 状态机

写文件流程

Proxy

多机房部署

高级特性

泳道消息

Databus

Mirror

Index

Parquet

RocetMQ

基本概念

底层原理

高级特性