(求助大神)程序连接kafka报错或者运行一段时间后报错,重启kafka以及程序后有时会恢复正常

37 阅读1分钟

kafka版本是2.3.18,docker运行,程序会高频大批量往kafka写入数据,有五个环境现场(同样的代码),其中两个现场无问题,另外三个现场存在连接kafka报错或者运行一段时间后报错的问题(突然产生的此问题,已经线上运行很长时间了),重启kafka以及程序后,有时会自动恢复正常连接。 程序报错截图:

clipbord_1743852803085.png

WXWorkLocal_17438528418468.png

kafka集群报错截图(部分):

image.png

image.png

image.png

目前两个现场通过重启kafka和程序恢复正常,另一个现场无法通过这种方式恢复正常,通过加大kafka运行内存也无法解决,最终通过删除kafka中的所有队列重新创建才恢复正常。

本质问题没有排查清楚,可能未来还会出现。有没有大神帮忙看下指导下排查方向或者基本问题在哪?