记一次kafka集群部署完成后,服务异常问题

799 阅读1分钟

现象

Kafka集群,版本为2.2.2 ,做的内外网分离,部署完成后,使用客户端连接工具,生成和消费基本都是连接超时的情况,查看topic列表和权限基本都是超时的情况,有少量成功情况。 客户端连接也正常,偶尔会出现连接不上的问题。 Kafka server.log日志频繁记录如下警告信息: WARN attempting to send response via channel for while there is no open connection

image.png

image.png

分析

其实也没什么分析过程,因为对Kafka不了解,网上搜索了一些博客,也没有找到合适的解决方案,最后没办法,打开了Kafka debug日志。发现日志中记录了连接到主机名的日志,忘记截图了。

解决

找到问题日志就好处理了,根据日志大致推断是根据hostname连接的时候解析超时了,这时候尝试在/etc/hosts 中加入Kafka集群机器的hostname后,重启集群,发现连接超时的问题没有再出现过,问题基本解决。之后搜索了一下,Kafka配置时虽然没用主机名,但是内部实现的时候,会使用主机名进行连接操作,没有配置的时候,需要花费时间去做解析。

后记

这里具体原因需要后续继续了解,目前也就是根据现象解决了问题。