如何搭建一个线上日志收集组件针对线上集群日志分散各地查看不方便，无法做实时全量查询，无法做离线数据统计分析的情况，应该如

背景

为了应对流量，保证服务的可用性和水平扩展性，现在服务节点多数都是无状态的，集群的方式部署在云上。

当流量被分发在各个机器接点上时，对应的日志同样也写在各个节点的文件里。

因为当集群规模很大的时候，不可能登录到每台机器上去查看日志，所以应该有一个公共的日志组件，来将日志收集到集中的一个地方。

首先考虑日志的应用场景，大致有以下几个作用：

通过以上分析可得知，这个组件大致需要包含以下特点：

ok，大致需求分析完毕，下面进行具体方案的落地

首先想到的结构就是logstash + es + kibana的经典组合

这套方案已经非常的成熟了，但是方案选型不光要考虑成熟程度，还需要结合公司实际的支持程度进行适配，所以需要对这个方案进行一些调整。

由于现在公司内服务节点都上了云，对于节点容器公司支持的是flume收集日志，输出源支持「kafka」和「hdfs」文件。

我们的数据需要离线分析，需要落到hdfs，但是需要通过格式校验&清洗之后才能落入。

并且hdfs这只是其中一个数据落地流程，还需要支持多方的日志消费，所以最好的方法是用消息中间件来进行解耦。

通过将日志推入kafka中，各个使用方来订阅topic，达到流程解耦，多流程并行处理的目的。

将每条日志以消息形式推入kafka中后，我们需要将消息落入es当中，供kibana的图形界面查询。

消费kafka消息写es的这个过程，可以自由搭建实现，不受限于公司技术支持，可以有以下方式可选

这里需要注意的是，在落入数据之前，要有一个格式校验&清洗的过程。

这里第一版的方案定的流程是

这个方案上线一段时间后存在几个问题

消费消息->清洗数据->写入es这个过程其实是一个很简单的流处理形式，但是由于是跑在jvm上，机器的内存占用和cpu占用都偏高。

网络io密集，es集群压力大，导致需要控制写入速度，在流量高的时候消费延迟就会很高。

需要做的是将消息打包，批量提交到es集群，减轻es的压力，提高消费速度。

最终选择使用go开发一个消费程序，理由是go语言对io频繁的场景比较适配，并且自定义清洗逻辑和写入的规则都能由自己支配，更加灵活。

消费程序的整体流程借鉴了一个工作流的实现

首先主协程根据主题的分区数来确定需要启动工作流的协程数

然后按照下图所示的流程进行消息的积攒批量发送

消息延迟量效果
优化前：平均4w左右
优化后：平均1.5k内

es非常依赖机器的内存资源，存储7-15天的数据还好，但是要存长时间的海量数据就不合适了。

为了能够离线统计分析和产出报表，还需要将日志持久化存储到hdsf中，做一个长久的存储。

公司大数据平台提供了flink集群和hdfs的支持，只需要在中间定义一个消费写入的java代码即可，过程很简单就不再赘述。

日均日志条数：3.5亿
es写入次数：90w+
实时性：秒级
延迟情况：流量峰值最高7k