分布式专题|想进入大厂,你得会点kafka

218 阅读8分钟

分布式专题|想进入大厂,你得会点kafka

介绍

什么是kafka?

Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、Storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目

kafka能用在哪里?

  • 日志收集:一个公司可以用Kafka收集各种服务的log,通过kafka以统一接口服务的方式开放给各种consumer,例如hadoop、Hbase、Solr等。

  • 消息系统:解耦和生产者和消费者、缓存消息等。

  • 用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。

  • 运营指标:Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。

kafka基本组件

  • Broker

    消息中间件处理节点,一个Kafka节点就是一个broker,一个或者多个Broker可以组成一个Kafka集群

  • Topic

    Kafka根据topic对消息进行归类,发布到Kafka集群的每条消息都需要指定一个topic

  • Producer

    消息生产者,向Broker发送消息的客户端

  • Consumer

    消息消费者,从Broker读取消息的客户端

  • ConsumerGroup

    每个Consumer属于一个特定的Consumer Group,一条消息可以被多个不同的Consumer Group消费,但是一个Consumer Group中只能有一个Consumer能够消费该消息

  • Partition

    物理上的概念,一个topic可以分为多个partition,每个partition内部消息是有序的,每个partition又能支持分配多个副本,在多个副本所在的broker中,会选举出一个leader,leader分区负责处理读写请求,并且把数据同步给其他的follower中保存的副本。

kafka 难点理解

  • 消息消费之后不会删除

    消息被消费这消费之后,还会保存在分区里面,什么时候会被删除呢?是通过 配置参数 log.retention.hours决定的,如果这里设置成10,那么10小时之后,这个消息就会被删除

  • topic、partition和Broker之间的关系

    一个topic代表一个业务数据集,例如如果需要处理订单数据,可以为订单消息创建一个topic,所有的订单消息都会发到这个topic中;

    如果订单消息越来越多,那么就会造成这个topic变得越来越大,有可能会达到TB,肯定不能放在单机上面保存,我们可以对这个topic进行分区(partition),这些分区会分散在不同的机器上面,划分多个分区,也是为了提高消息的并发消费,因为前面说过,一个分区只能被每个消费组中的一个消费者进行消费,如果拆分成多个分区,就可以同时被多个消费者进行消费;

    broker最容易理解了:运行kafka进程的机器就是一个broker;

  • kafka如何支持传统消息的两种模式:队列和订阅

    • 队列模式:所有消费者位于同一个消费组,保证消息只会被一个消费者进行消费

    • 发布\订阅模式:将消费者放在不同消费组中,这样每个消费者都能收到同一个消息

    这两种模式都是基于kafka的消费机制决定的:生产者发送的消息会发到所有订阅了该topic的消费组(consumer grop)中,但是每个消费组中只有一个消费者能够消费到这条消息。 在这里插入图片描述

  • kafka如何保证消息顺序消费

    kafka通过保证一个分区的消息只能被消费组中的一个消费者进行消费,所以生产者发送消息必须将消息发送到同一个分区中,才能保证消息顺序消费;

如何在docker上安装kafka

安装kafka的前提是你要安装zookeeper

  • 安装zookeeper
# 创建文件夹
mkdir -p ~/docker/zookeeper/conf
mkdir -p ~/docker/zookeeper/data
mkdir -p ~/docker/zookeeper/datalog
docker run -d --name zookeeper \
--restart always \                        # docker服务启动时, 默认启动zookeeper容器
-p 2181:2181 -p 2888:2888 -p 3888:3888 \
-v ~/docker/zookeeper/conf:/conf \
-v ~/docker/zookeeper/data:/data \
-v ~/docker/zookeeper/datalog:/datalog \
zookeeper:3.4.14
  • 安装kafka
 docker run  -d --name kafka -p 9092:9092 -e KAFKA_BROKER_ID=0 -v ~/docker/kafka/logs:/kafka -e KAFKA_ZOOKEEPER_CONNECT=zookeeper --link zookeeper:zookeeper -e KAFKA_ADVERTISED_LISTENERS=PLAINTEXT://${IP}:9092 -e KAFKA_LISTENERS=PLAINTEXT://0.0.0.0:9092 -t wurstmeister/kafka
  • 使用kafka自带的控制台生产者和消费者 进行测试

# 开启生产者
docker exec -it kafka bash
# 创建主题
kafka-topics.sh --create -zookeeper zookeeper --topic lezai --partitions 3 -replication-factor 1
# 生产者连接kafka
kafka-console-producer.sh --topic lezai -bootstrap-server 127.0.0.1:9092

# 开启消费者
docker exec -it kafka bash
# 消费者连接kafka
kafka-console-consumer.sh --topic lezai -bootstrap-server 127.0.0.1:9092 --from-beginning

# 现在在生产者窗口输入内容,看看消费者窗口是否能收到
  • kafka命令行常规操作
1.查看topic的详细信息 
./kafka-topics.sh -bootstrap-server 127.0.0.1:2181 -describe -topic testKJ1 
  
2、为topic增加副本 
./kafka-reassign-partitions.sh -zookeeper 127.0.0.1:2181 -reassignment-json-file json/partitions-to-move.json -execute 
  
3、创建topic 
./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic testKJ1 
  
4、为topic增加partition 
./bin/kafka-topics.sh –zookeeper 127.0.0.1:2181 –alter –partitions 20 –topic testKJ1 
  
5、kafka生产者客户端命令 
./kafka-console-producer.sh --broker-list localhost:9092 --topic testKJ1 
  
6、kafka消费者客户端命令 
./kafka-console-consumer.sh -zookeeper localhost:2181 --from-beginning --topic testKJ1 
  
7、kafka服务启动 
./kafka-server-start.sh -daemon ../config/server.properties  
  
8、下线broker 
./kafka-run-class.sh kafka.admin.ShutdownBroker --zookeeper 127.0.0.1:2181 --broker #brokerId# --num.retries 3 --retry.interval.ms 60 
shutdown broker 
  
9、删除topic 
./kafka-run-class.sh kafka.admin.DeleteTopicCommand --topic testKJ1 --zookeeper 127.0.0.1:2181 
./kafka-topics.sh --zookeeper localhost:2181 --delete --topic testKJ1 
  
10、查看consumer组内消费的offset 
./kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --zookeeper localhost:2181 --group test --topic testKJ1

springboot 集成kafka

  • 依赖导入
 <dependency>
            <groupId>org.springframework.kafka</groupId>
            <artifactId>spring-kafka</artifactId>
 </dependency>
  • 配置文件
server:
  port: 8080
spring:
  kafka:
    bootstrap-servers: 127.0.0.1:9092
    producer: # 生产者
      retries: 3 # 设置大于0的值,则客户端会将发送失败的记录重新发送
      batch-size: 16384
      buffer-memory: 33554432
      # 指定消息key和消息体的编解码方式
      key-serializer: org.apache.kafka.common.serialization.StringSerializer
      value-serializer: org.apache.kafka.common.serialization.StringSerializer
    consumer:
      group-id: mygroup
      enable-auto-commit: true
  • 添加消息生产者
    @Autowired
    private KafkaTemplate<String,String> kafkaTemplate;
    @Test
    public  void send(){
        kafkaTemplate.send("lezai",0,"key","kafkasss 发送数据");
        try {
            Thread.sleep(1000000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
  • 添加两个消费者,存在不同消费组
    @KafkaListener(topics = "lezai",groupId = "testGroup")
    public void listen(ConsumerRecord<String, String> record) {
        String value = record.value();
        System.out.println("testGroup"+value);
        System.out.println(record);
    }


    @KafkaListener(topics = "lezai",groupId = "testGroup2")
    public void listen2(ConsumerRecord<String, String> record) {
        String value = record.value();
        System.out.println("testGroup2"+value);
        System.out.println(record);
    }
    
    // 可以切换为相同的groupId,来验证消息是否会被同一个消费组中的消费者消费

微信搜一搜【乐哉开讲】关注帅气的我,回复【干货领取】,将会有大量面试资料和架构师必看书籍等你挑选,包括java基础、java并发、微服务、中间件等更多资料等你来取哦。