Kafka性能调优实战：同等资源配置性能提升20几倍的秘诀1、抛出问题笔者最近在折腾数据异构体系，在实现MySQL增量

1、抛出问题

笔者最近在折腾数据异构体系，在实现MySQL增量数据同步到MQ(Kafka、RocketMQ),本文的故事就从这里开始。

众所周知，为了提高写入端的并发性能，通常会采用多线程并发机制，提高写入端的性能，接下来基于MySQL增量同步到Kafka为例，阐述一下第一版的架构方案。

真实的数据同步架构设计复杂性远比上面复杂，上图旨在阐述Kafka的使用特点：

为了提高性能，通常会引入多线程，故组内同事直接采用多线程，通过创建多个线程，每一个线程单独创建一个KafkaProducer对象，然后binlog解析器后，按照分区键进行负载均衡。

但发现，性能非常低下，为什么呢？该如何处理呢？

2、多线程在Kafka这里为啥不好使了

当发现性能比较慢，然后又按照 Kafka性能优化指南进行调优，对linger.ms,batch.size等参数进行调优，但发现毫无用处，这是为啥呢？

Kafka的高吞吐率设计的核心要点之一是批处理，即kafka在消息发送端引入了一个双端队列，应用程序通过KafkaProducer的send方法时，会将消息先放入到双端队列，然后kafka使用一个异步线程从队列中成批发送消息。

为了确保sender线程能一次发送较多数据，kafka在客户端引入了一个参数linger.ms，默认为200ms,即小心进入到缓存区后不会立即被send线程发送，而是等待一定时间，这样能提高send线程的发送效率，提高吞吐率。

再回到上述到场景，将视角切换到单个线程，在单个线程内，应用方调用KafkaProducer后，消息会在缓存区中等待200ms,但由于是数据同步场景,消息发送使用的是同步发送,这样就会导致不管send线程等多久，永远只会有一条消息被发送，每条消息发送还要无缘无故的增加200ms的延迟，tps怎能上去？

第一个优化点：还是基于多线程发送，当多线程共同持有一个KafkaProducer对象，这样在同一时间会有更多数据到达KafkaProducer的缓存区，Sender线程就可以实现一次发送多条消息，实现批量发送到效果，从而提升Kafka的吞吐率，实现高TPS，其效果如下图所示：