kafka

概述

Kafka是一个开源的分布式事件流平台 （Event StreamingPlatform），被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用

消息队列

作用

kafka是大数据领域常用的消息队列，其主要作用有：

缓冲/消峰：有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况
解耦：允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束（也就是说，数据源和数据的目的地可以任意匹配）
异步通信：允许用户把一个消息放入队列，但并不立即处理它，然后在需要的时候再去处理它们

两种模式

点对点模式：消费者主动拉取数据，消息收到后清除消息
发布/订阅模式

1. 可以有多个topic主题
2. 消费者消费数据之后，不删除数据
3. 每个消费者相互独立，都可以消费到数据

基础架构

（1）Producer：消息生产者，就是向 Kafka broker 发消息的客户端。

（2）Consumer：消息消费者，向 Kafka broker 取消息的客户端。

（3）Consumer Group（CG）：消费者组，由多个 consumer 组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费；消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。

（4）Broker：一台 Kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个broker 可以容纳多个 topic。

（5）Topic：可以理解为一个队列，生产者和消费者面向的都是一个 topic。

（6）Partition：为了实现扩展性，一个非常大的 topic 可以分布到多个 broker（即服务器）上，一个 topic 可以分为多个 partition，每个 partition 是一个有序的队列。

（7）Replica：副本。一个 topic 的每个分区都有若干个副本，一个 Leader 和若干个Follower。

（8）Leader：每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是 Leader。

（9）Follower：每个分区多个副本中的“从”，实时从 Leader 中同步数据，保持和Leader 数据的同步。Leader 发生故障时，某个 Follower 会成为新的Leader。

集群搭建

三台机器上都要安装kafka
修改配置文件vim server.properties

- 设置broker.id，必须全局唯一，不能重复，必须是数字
- 设置log.dirs，是运行日志(数据)存放的路径，路径不需要提前创建，kafka 自动帮你创建，可以配置多个磁盘路径，路径与路径之间可以用"，"分隔
- 设置端口号：port=9093
- 配置Zookeeper 集群地址：zookeeper.connect

- - 示例：（在 zk 根目录下创建/kafka，方便管理）

zookeeper.connect=slave1:2282,master:2282,slave3:2282/kafka

设置环境变量

#KAFKA_HOME
export KAFKA_HOME=/home/wuhaoyi/module/kafka
export PATH=$PATH:$KAFKA_HOME/bin

同步配置到所有机器，并修改broker.id
编写集群启停脚本：kf.sh

#! /bin/bash
case $1 in
"start"){
for i in slave1 master slave3
do
echo " --------启动 $i -p 8022 Kafka-------"
ssh $i -p 8022 "/home/wuhaoyi/module/kafka/bin/kafka-server-start.sh -daemon /home/wuhaoyi/module/kafka/config/server.properties"
done
};;
"stop"){
for i in slave1 master slave3
do
echo " --------停止 $i -p 8022 Kafka-------"
ssh $i -p 8022 "/home/wuhaoyi/module/kafka/bin/kafka-server-stop.sh "
done
};;
esac

命令行操作

查看操作主题命令

bin/kafka-topics.sh（--help，查看所有命令）
常用：

bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --list：查看当前broker上所有主题

bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --create --partitions 1 --replication-factor 3 --topic first：创建主题

bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --describe --topic first：查看主题详情

bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --alter --topic first --partitions 3：修改分区数（分区只能增加，不能减少）

生产者命令行操作

bin/kafka-console-producer.sh

连接到first主题中去：bin/kafka-console-producer.sh --bootstrap-server hadoop102:9092 --topic first

可以向主题中发送数据

消费者命令行操作

bin/kafka-console-consumer.sh

消费first主题中的数据：

bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic first

读取first主题中的所有数据：bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --from-beginning --topic first

kafka基础入门（1）：框架概述及集群环境搭建