携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第1天,点击查看活动详情
前言
本文是我 Kafka 学习的第一篇文章,Kafka 作为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。在本片文章中主要介绍一下 Kafka 的主要功能,以及他的一些架构、设计、基本概念。
特性
Kafka 之所以受到越来越多的青睐,得益于他的诸多优秀特性,包括消息系统、存储系统、流式处理等;
消息系统
Kafka 和传统的消息系统(中间件)都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时,Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。
存储系统
Kafka 把消息持久化到磁盘,相比于其他基于内存存储的系统而言,有效地降低了数据丢失的风险。也正是得益于 Kafka 的消息持久化功能和多副本机制,我们可以把 Kafka 作为长期的数据存储系统来使用,只需要把对应的数据保留策略设置为“永久”或启用主体的日志压缩功能即可。
流式处理平台
Kafka 不仅为每个流行的流式处理框架提供了可靠的数据来源,还提供了一个完整的流式处理类库,比如窗口、连接、变换和聚合等各类操作。
基本概念
一个典型的 Kafka 体系架构包括若干个 Producer、若干个 Broker、若干 Consumer,以及一个 Zookeeper 集群。其中 ZooKeeper 是 Kafka 用来负责集群元数据的管理、控制器的选举等操作。Producer 将消息发送到 Broker,Broker 负责将收到的消息存储到磁盘中,而 Consumer 负责从 Broker 订阅并消费消息。
-
Producer:生产者,也就是发送消息的一方。生产者负责创建消息,然后将其投递到 Kafka 中。
-
Consumer:消费者,也就是接收消息的一方。消费者连接到 Kafka 上并接受消息,进而进行相应的业务逻辑处理。
-
Broker:服务代理节点。对于 Kafka 而言,Broker 可以简单地看作一个独立的 Kafka 服务节点或 Kafka 服务实例。大多数情况下也可以将 Broker 看作一个 Kafka 服务器,前提是这台服务器上只部署了一个 Kafka 实例。一个或多个 Broker 组成了一个 Kafka 集群。
在 Kafka 中还有两个特别重要的概念:主题(Topic
)与分区(Partition
)。Kafka 中的消息以主题为单位进行归类,生产者负责将消息发送到特定的主题(发送到 Kafka 急群众的每一条消息都要指定一个主题),而消费者负责订阅主题并进行消费。
主题是一个逻辑上的概念,它还可以细分为多个分区,一个分区只属于单个主题,很多时候也会把分区称为 主题分区(Topic-Partition
)。同一主题下的不同分区包含的消息是不同的,分区在存储层面可以看作一个可追加的日志(Log)文件,消息在被追加到分区日志文件的时候都会分配一个特定的偏移量(offset
)。Offset
是消息在分区中的唯一标识,Kafka 通过它来保证消息在分区内的顺序性。不过 offset 并不跨越分区,也就是说, Kafka 保证的是分区有序而不是主题有序
。
每一条消息被发送到 broker 之前,会根据分区规则选择存储到哪个具体的分区。如果分区规则设定得合理,所有的消息都可以均匀地分配到不同的分区中。
同其他系统主从复制原理类似,Kafka 为分区引入了多副本(Replica
)机制,通过增加副本数量可以提升容灾能力。同一分区的不同副本中保存的是相同的消息(在同一时刻,副本之间并非完全一样),副本之间是“一主多从”的关系,其中 leader
副本负责处理读写请求,follower
副本只负责与 leader
副本的消息同步。副本处于不同的 broker 中,当 leader
副本出现故障时,从 follower
副本中重新选举新的 leader
副本对外提供服务。Kafka 通过多副本机制实现了故障的自动转移,当 Kafka 集群中某个 broker 失效时仍然能保证服务可用。
Kafka 消费端也具备一定的容灾能力。Consumer 使用拉(Pull
)模式从服务端拉取消息,并且保存消费的具体位置,当消费者宕机后恢复上线时可以根据之前保存的消费位置重新拉取需要的消息进行消费,这样就不会造成消息丢失。
参考文档
- 《深入理解Kafka:核心设计与实践原理》—— 朱忠华