从 Kafka 到 Pulsar:数据流演进之路 | 青训营笔记

50 阅读2分钟

这是我参与「第四届青训营 」笔记创作活动的的第10天

课程内容

01 消息队列的概述

1.1 消息队列的应用场景

  1. MQ消息通道:用在工程开发中,可以理解为一个list或者queue,用于上下游的解耦,发布与订阅功能。
  2. EventBridge事件总线
  3. 流数据平台:对接上下游分布式计算组件进行实时数据分析。

\

1.1.1 MQ消息通道

1.1.2 EventBridge事件总线

1.1.3 DataFlow Platform 流数据平台

1.2 主流消息队列的相关介绍

2 主流消息队列的相关介绍

02 Kafaka详解

2.1 Kadka架构介绍

  • Zookeeper组件

  • Broker组件

  • Controller组件-选主的Broker

\

  • Coordinator组件

\

2.2 Kafka高可用

  • 高可用-副本同步机制

  • 副本ISR机制

  • ACK机制

ACK (Acknowledge character)即是确认字符,在数据通信中,接收站发给发送站的一种传输类控制字符。表示发来的数据已确认接收无误。

  • 3副本:ack = -1 ; min.issync.replica=2
  • 5副本也是相同的配置

\

\

2.3 Kafka集群扩缩容

  • Kafak集群扩容

  • Kafaka集群缩容步骤

2.4 Kafka未来演进之路

\

2.5 Kafka运维/调优经验介绍

\

\

\

\

03 Pulsar详解

3.1 Pulsar 架构介绍

  • Proxy层-类似网关,代Broker

\

3.2 Bookkeeper介绍

\

  • Bookkeeper与pulsar存储对象的映射

\

3.3 Pulsar特效介绍

存储与计算分离

  • 生产模式

  • 消费模式

  • 独占模式

  • 常用的模式

  • 类似Kafka的发布订阅机制

  • key-share

  • 多租户,消费者对于pulsar是租户

  • 跨地域容灾

\

3.4 集群HA & Scale-up

  • 左边一致性hash环;黄色的结点是bundle,将一个hash环分成四个部分,T0~5是Topic。

\

3.5 Pulsar VS Kafka

\

04 周边和生态

4.1 周边生态概览

从上往下看

  1. 连接数据源-pulsar io
  2. 传入Broker中,Broker可以通过计算框架进行分析
  3. 多模的Stream Storage和Tiered Storage定义schema

4.1.1 Pulsar IO

\

4.1.2 对数据格式的补充

4.1.3 Pulsar SQL

对接了Presto。

\