Python和SpringBoot集成kafka | 豆包MarsCode AI刷题Kafka Kafka 是一种分布式

{DAB167CC-2804-4C74-8BEE-C8ADAA3B363B}.png

1. 什么是Kafka

Kafka 是一种分布式的流处理平台和消息队列系统，由 LinkedIn 开发，并开源于 Apache 基金会。Kafka 设计为高吞吐量、可持久化的消息中间件，适用于实时数据流的处理和分析，常用于构建实时流式数据处理应用和数据管道。Kafka 支持发布-订阅模式和队列模式，并通过分区、复制等机制实现高可用性和容错性。

Kafka 具有高吞吐量、低延迟、水平扩展性和可靠性等特点，在企业级大数据处理、实时分析、数据同步等领域中应用广泛。

2. Kafka的核心概念

Kafka 中的几个核心概念包括生产者、消费者、主题、分区、消息偏移量和消费组，这些概念构成了 Kafka 的基本模型。

2.1 生产者（Producer）

生产者是向 Kafka 发送数据的角色，通常是应用程序或数据流的源头。生产者将数据发送到指定的主题（Topic）中，可以通过负载均衡的方式选择发送数据到分区中。生产者决定了数据的分区策略，以确保负载均衡和数据的有序性。

2.2 消费者（Consumer）

消费者是从 Kafka 中读取数据的角色，通常是数据流的接收者。消费者订阅一个或多个主题，通过偏移量（Offset）控制读取数据的进度。消费者可以读取实时数据或历史数据，适用于实时和批量处理。

2.3 主题（Topic）

主题是 Kafka 中数据的逻辑分类，每个主题对应一个数据流。生产者将数据发布到主题中，消费者订阅特定的主题以接收消息。主题为数据分类提供了逻辑层次，是数据处理的基础。

2.4 分区（Partition）

每个主题可以被划分为多个分区（Partition），分区是主题的物理存储单位。分区使 Kafka 能够实现水平扩展和负载均衡，每个分区存储一部分消息数据，消息在分区内保持有序。在 Kafka 集群中，每个分区可以分布在不同的 Broker 上，提升了数据并行处理能力。

2.5 消息偏移量（Offset）

偏移量是 Kafka 中每条消息在分区内的唯一编号，用于标识消息的顺序。消费者通过记录当前偏移量来确保消息消费的连续性和重复消费。偏移量管理是实现消息消费确认的重要机制。

2.6 消费组（Consumer Group）

消费者组是一组消费者的集合，Kafka 将主题的分区分配给消费者组中的消费者，保证每个分区只能被消费者组中的一个消费者消费。通过消费者组，Kafka 实现了消息的负载均衡和并行处理。

3. Kafka的架构设计

{4FD8F364-EB6F-4558-9F59-12AB11701834}.png Kafka 的架构设计旨在实现高性能、高可用性和分布式容错能力，主要由 Broker、Zookeeper、主题、分区等组件组成。

3.1 Broker与集群

Kafka 的 Broker 是 Kafka 的服务器节点，负责接收和存储数据，并提供数据给消费者。一个 Kafka 集群可以包含多个 Broker，数据分布在不同的 Broker 上，实现了数据的负载均衡和容错能力。每个 Broker 管理主题的部分分区，提供了水平扩展的能力。

3.2 Zookeeper的作用

Zookeeper 是 Kafka 中用于分布式协调的工具，负责管理 Broker 的元数据和消费者偏移量。Zookeeper 提供了分布式锁、Leader 选举等功能，保证 Kafka 集群的高可用性和一致性。

在新的 Kafka 版本中，Kafka 开始逐步移除对 Zookeeper 的依赖，改用内置的集群元数据管理机制。

4. Kafka的工作流程

{D900D1C3-F33D-431F-84F1-136C659D7172}.png Kafka 的工作流程一般包括以下几个步骤：

生产者发送消息：生产者将消息发送到指定的主题，Kafka 会根据分区策略将消息存储到相应的分区中。消息存储：Kafka 将消息存储在磁盘中，并按照消息的偏移量有序保存，实现持久化存储。消费者订阅主题：消费者订阅主题，通过分区中的偏移量读取消息。消费确认：消费者读取消息后，可以选择提交偏移量，表示消息已被消费。 Kafka 通过分区机制和消息偏移量管理，实现了高并发、持久化和可靠的消息传输。

5. Kafka的应用场景

Kafka 作为高性能消息系统和流处理平台，广泛应用于以下场景：

日志聚合：Kafka 可作为统一的日志系统，收集不同服务的日志数据，方便日志管理和分析。实时数据处理：Kafka 支持大规模实时数据的传输，常用于流式数据处理和实时监控。数据管道：在数据平台中，Kafka 常用作数据管道，将数据从生产系统实时传输到数据仓库或数据湖中。事件驱动架构：Kafka 支持事件驱动的应用架构，如订单处理、通知系统等。监控与告警：Kafka 可用于系统监控，通过传输监控数据到告警系统实现实时告警。

6. Kafka的优缺点分析

优点高吞吐量：Kafka 支持每秒数百万条消息，适用于大规模数据传输。持久化和容错：Kafka 将消息持久化到磁盘，确保数据安全，并通过分区和复制实现容错。水平扩展性：Kafka 支持添加 Broker 增加吞吐量，实现水平扩展。数据顺序性：Kafka 在分区级别保持消息顺序，适合对消息顺序敏感的场景。支持多消费者：Kafka 支持多消费组，允许多个不同的消费者读取同一个主题的消息。缺点延迟：在高负载下，Kafka 的延迟可能增加，尤其是在数据写入和读取频繁的情况下。复杂的运维：Kafka 集群的管理需要较高的技术要求，尤其是在分布式环境下。消息丢失的可能性：尽管 Kafka 具备容错机制，但在非严格模式下仍可能出现消息丢失的情况。依赖 Zookeeper：旧版本中对 Zookeeper 的依赖增加了系统复杂性，未来版本逐步减少此依赖。

7. Kafka与其他消息系统的对比

Kafka 与其他消息系统（如 RabbitMQ、ActiveMQ）相比，具有以下不同特点：

吞吐量：Kafka 吞吐量较高，适用于大数据场景，而 RabbitMQ 和 ActiveMQ 更适合中小规模的数据传输。数据持久化：Kafka 提供持久化存储，适合长时间保存的数据管道，而传统消息队列通常不会长期保存消息。消费模式：Kafka 支持消费组的订阅模式，使得每条消息可以被多个消费者消费，而传统消息队列通常以点对点模式为主。场景差异：Kafka 更适合日志收集、实时分析等流处理场景，而 RabbitMQ 和 ActiveMQ 更适合请求-响应的消息传输。

8. 总结

Kafka 是一款高吞吐、低延迟的分布式消息系统，适用于大规模数据流处理和事件驱动系统。通过分区、复制、持久化和消费组机制，Kafka 实现了数据的高效传输和容错能力。Kafka 广泛应用于日志收集、数据管道、实时分析等场景，为企业构建流处理架构提供了强大支持。在设计和管理 Kafka 时，需要结合实际需求，优化分区策略、偏移量管理和集群配置，以充分发挥 Kafka 的性能和可靠性。

9.SpringBoot集成

9.1 添加Kafka依赖

如果你不是像上述一样新建的项目，那你也可以选择在已有的Spring Boot应用程序中使用Kafka，那么你需要在pom.xml文件中添加以下依赖：

<dependency>
      <groupId>org.springframework.kafka</groupId>
      <artifactId>spring-kafka</artifactId>
      <version>2.8.11</version>
</dependency>

9.2 配置Kafka

在application.properties文件中添加以下配置：

spring.kafka.bootstrap-servers=localhost:9092
spring.kafka.consumer.group-id=test_group

这里我们指定了Kafka服务器的地址和端口，并配置了消费者组的ID，关于消费者组的概念，其实就是某一些消费者具备相同的功能，因此会把他们设为同一个消费者组，这样他们就不会重复消费同一条消息了。更具体地原理，我们会在之后地篇章中介绍。

9.3 创建Kafka生产者

在Kafka中，生产者是发送消息的应用程序或服务。在Spring Boot中，我们可以使用KafkaTemplate类来创建Kafka生产者

package com.zhanfu.kafkademo.service;

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.kafka.core.KafkaTemplate;
import org.springframework.stereotype.Service;

@Service
public class KafkaService {
    
    @Autowired
    private KafkaTemplate<String, String> kafkaTemplate;

    public void sendMessage(String message) {
        kafkaTemplate.send("test_topic", message);
    }
}

这里我们使用@Autowired注解来自动注入KafkaTemplate，并使用send方法将消息发送到名为“test_topic”的Kafka主题中。

9.4 创建Kafka消费者

在Kafka中，消费者是接收并处理订阅主题消息的应用程序或服务。在Spring Boot中，我们可以使用@KafkaListener注解来创建Kafka消费者。

package com.zhanfu.kafkademo.listener;

import org.springframework.kafka.annotation.KafkaListener;
import org.springframework.stereotype.Component;

@Component
public class KafkaLis {

    @KafkaListener(topics = "test_topic", groupId = "test_group")
    public void receiveMessage(String message) {
        System.out.println("Received message: " + message);
    }
}

9.5 应用程序入口

现在我们已经完成了Spring Boot和Kafka的整合。我们可以启动Spring Boot应用程序，然后发送消息并消费它，以测试我们的应用程序是否正确地与Kafka集成。

package com.zhanfu.kafkademo.controller;

import com.zhanfu.kafkademo.service.KafkaService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.GetMapping;
import org.springframework.web.bind.annotation.PathVariable;
import org.springframework.web.bind.annotation.RestController;

@RestController
public class MessageController {

    @Autowired
    private KafkaService kafkaService;

    @GetMapping("/send/{message}")
    public String sendMessage(@PathVariable String message) {
        kafkaService.sendMessage(message);
        return "Message sent successfully";
    }
}

整体结构 {6EE848F5-BBDA-4C98-B4FE-3DC5BA732FA8}.png

测试结果 {14D37143-856C-4402-A258-825369EDC430}.png

KafkaTemplate 介绍

不难看出，在Springboot中，使用kafka的关键在于 KafkaTemplate，它是 Spring 提供的 Kafka 生产者模版，用于向 Kafka 集群发送消息。并且把 Kafka 的生产者客户端封装成了一个 Spring Bean，提供更加方便易用的 API。

它有三个主要属性：

producerFactory：生产者工厂类，用于创建 KafkaProducer 实例。
defaultTopic：默认主题名称，如果在发送消息时没有指定主题名称，则使用该默认主题。
messageConverter：消息转换器，用于将消息对象转换为 Kafka ProducerRecord
它的主要方法：

send(ProducerRecord<K,V> record)：向指定的 Kafka 主题发送一条消息。ProducerRecord 包含了主题名称、分区编号、Key 和 Value 等信息。
send(String topic, V data)：向指定的 Kafka 主题发送一条消息。
send(String topic, K key, V data)：向指定的 Kafka 主题发送一条消息，并指定消息的 Key。
execute(ProducerCallback<K,V> callback)：使用回调方式发送消息，可以自定义消息的创建过程和错误处理过程。
inTransaction()：启用事务，多个 send 方法调用将被包装在一个事务中，保证 Kafka 事务的原子性。
除了上述方法外，KafkaTemplate 还提供了其他方法，如 sendDefault()、sendOffsetsToTransaction() 等，可以根据实际需要进行选择和使用。

{53C9048C-6D59-4E6C-9E05-85FE44C9824A}.png

10. Python 如何使用 Kafka 进行操作

10.1 安装 Kafka-Python 库

在 Python 中使用 Kafka，首先需要安装 kafka-python 库。可以使用 pip 命令进行安装：

pip install kafka-python

10.2 生产者示例

以下是一个简单的 Python 生产者示例，向 Kafka 的一个 Topic 发送消息：

from kafka import KafkaProducer

# 创建 Kafka 生产者实例
producer = KafkaProducer(bootstrap_servers='localhost:9092')

# 要发送的消息
message = 'Hello, Kafka!'

# 发送消息到指定的 Topic，这里假设 Topic 名为'test_topic'
producer.send('test_topic', message.encode('utf-8'))

# 关闭生产者连接
producer.close()

在上述示例中，首先创建了一个 KafkaProducer 实例，指定了 Kafka 集群的地址（localhost:9092）。然后将消息转换为字节流并发送到名为 test_topic 的 Topic 中。最后关闭生产者连接，以释放资源。

10.3 消费者示例

下面是一个 Python 消费者示例，从 Kafka 的 Topic 中接收消息：

from kafka import KafkaConsumer

# 创建 Kafka 消费者实例，指定消费者组为'test_group'
consumer = KafkaConsumer('test_topic', group_id='test_group', bootstrap_servers='localhost:9092')

# 循环接收消息
for message in consumer:
    print(f"Received message: {message.value.decode('utf-8')}")

# 关闭消费者连接
consumer.close()

在这个示例中，创建了一个 KafkaConsumer 实例，指定了要消费的 Topic（test_topic）和消费者组（test_group）以及 Kafka 集群的地址。然后通过循环遍历消费者，获取并打印接收到的消息内容。当不再需要接收消息时，关闭消费者连接。

10.4 高级用法

自定义分区策略在 KafkaProducer 中，可以通过设置 partitioner 参数来自定义分区策略。例如，以下是一个基于消息键的哈希分区策略示例：

from kafka import KafkaProducer
from kafka.partitioner import DefaultPartitioner

def custom_partitioner(key, all_partitions, available):
    # 根据消息键进行哈希计算，选择对应的分区
    return hash(key) % len(all_partitions)

producer = KafkaProducer(bootstrap_servers='localhost:9092', partitioner=custom_partitioner)
设置消息的键和时间戳
在发送消息时，可以指定消息的键和时间戳。例如：
producer.send('test_topic', key='message_key'.encode('utf-8'), value='Hello, Kafka!'.encode('utf-8'), timestamp_ms=1638902400000)
其中 timestamp_ms 是消息的时间戳，单位为毫秒。
3. 消费者的位移提交
消费者可以手动控制位移的提交，以便更灵活地管理消息消费的位置。例如：

consumer = KafkaConsumer(...)
for message in consumer:
    # 处理消息
    print(f"Received message: {message.value.decode('utf-8')}")
    # 手动提交位移
    consumer.commit()

通过 consumer.commit() 方法，可以将当前消费的位移提交到 Kafka 集群，以便在消费者重新启动时能够从正确的位置继续消费。