kafka初识：高吞吐率的实现和相关术语高吞吐率的实现：顺序读写： kafka将消息写入到了分区中顺序读写的顺

高吞吐率的实现：

顺序读写： kafka将消息写入到了分区中顺序读写的顺序读写要远快于随机读写。不过要注意的是segment的数据是顺序读写的，不是partition是顺序读写的

零拷贝：节省了时间

批量发送：成批发送消息

消息压缩：压缩解压增加了cpu工作量，但是提高了性能

架构：

一些重要概念：

Kafka 存储的消息来自任意多被称为 Producer 生产者的进程。数据从而可以被发布到不同的 Topic 主题下的不同 Partition 分区。在一个分区内，这些消息被索引并连同时间戳存储在一起。其它被称为 Consumer 消费者的进程可以从分区订阅消息。

Producer：消息生产者，向 Kafka Broker 发消息的客户端。
Consumer：消息消费者，从 Kafka Broker 取消息的客户端。
Consumer Group：消费者组（CG），消费者组内每个消费者负责消费不同分区的数据，提高消费能力。一个分区只能由组内一个消费者消费，消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。
Broker：一台 Kafka 机器就是一个 Broker。一个集群由多个 Broker 组成。一个 Broker 可以容纳多个 Topic。
Topic：可以理解为一个队列，Topic 将消息分类，生产者和消费者面向的是同一个 Topic。
Partition：为了实现扩展性，提高并发能力，一个非常大的 Topic 可以分布到多个 Broker （即服务器）上，一个 Topic 可以分为多个 Partition，每个 Partition 是一个有序的队列。
Replica：副本，为实现备份的功能，保证集群中的某个节点发生故障时，该节点上的 Partition 数据不丢失，且 Kafka 仍然能够继续工作，Kafka 提供了副本机制，一个 Topic 的每个分区都有若干个副本，一个 Leader 和若干个 Follower。
Leader：每个分区多个副本的“主”副本，生产者发送数据的对象，以及消费者消费数据的对象，都是 Leader。
Follower：每个分区多个副本的“从”副本，实时从 Leader 中同步数据，保持和 Leader 数据的同步。Leader 发生故障时，某个 Follower 还会成为新的 Leader。
Offset：消费者消费的位置信息，监控数据消费到什么位置，当消费者挂掉再重新恢复的时候，可以从消费位置继续消费。
ZooKeeper：Kafka 集群能够正常工作，需要依赖于 ZooKeeper，ZooKeeper 帮助 Kafka 存储和管理集群信息。

存储机制：

由于生产者生产的消息会不断追加到 log 文件末尾，为防止 log 文件过大导致数据定位效率低下，Kafka 采取了分片和索引机制。

它将每个 Partition 分为多个 Segment，每个 Segment 对应两个文件：“.index” 索引文件和 “.log” 数据文件。这些文件位于同一文件下，该文件夹的命名规则为：topic 名-分区号。例如，first 这个 topic 有三分分区，则其对应的文件夹为 first-0，first-1，first-2。

index 和 log 文件以当前 Segment 的第一条消息的 Offset 命名。

下图为 index 文件和 log 文件的结构示意图：“.index” 文件存储大量的索引信息，“.log” 文件存储大量的数据，索引文件中的元数据指向对应数据文件中 Message 的物理偏移量。

消息传送机制：

At most once— 消息最多发送一次，可能会丢失。
At least once— 消息最少发送一次，不会丢失。
Exactly once— 消息发送有且只有一次。

对应的producer的配置是：acks=[all, -1, 0, 1]

第一种是设为0，意思是生产者把消息发送出去之后，自然这消息就有可能丢失，那就把可用性也丢失了。
第二种是设为1，意思是生产者把消息发送出去之后，这消息只要顺利传达给了Leader，其他Follower有没有同步就无所谓了。存在一种情况，Leader刚收到了消息，Follower还没来得及同步Broker就宕机了，但生产者已经认为消息发送成功了，那么此时消息就丢失了。注意，[设为1是Kafka的默认配置]见Kafka的默认配置也不是那么高可用，而是对高可用和高吞吐量做了权衡折中。
第三种是设为All（或者-1），意思是生产者把消息发送出去之后，不仅Leader要接收到，ISR列表中的Follower也要同步到，生产者才会任务消息发送成功。

kafka初识： 高吞吐率的实现和相关术语

高吞吐率的实现：

架构：

存储机制：

消息传送机制：

kafka初识：高吞吐率的实现和相关术语