构建活码数据的实时ETL管道：从扫码日志到可视化看板活码系统每天产生海量日志，如何高效地清洗、聚合、存储，并最终呈现给运

活码系统每天产生海量日志，如何高效地清洗、聚合、存储，并最终呈现给运营人员？这需要一个健壮的实时ETL管道。今天，我们以企销宝的数据平台为例，聊聊背后的技术栈。

一、数据源与采集

活码数据主要来自两个地方：

日志采集采用Filebeat，将日志发送到Kafka集群。Kafka作为数据缓冲区，可以应对流量高峰。

二、实时清洗与加工

使用Flink消费Kafka数据，进行实时清洗：

Flink作业的Checkpoint间隔设为10秒，保证Exactly-Once语义。

三、数据分层存储

我们将数据分为三个层次：

ODS层（操作数据存储）：原始日志数据，存储在HDFS/Hive，用于离线回溯。

DWD层（明细数据）：清洗后的明细数据，存储在ClickHouse，用于实时查询。表结构按天分区，使用MergeTree引擎，主键为(date, scene)。

DWS层（聚合数据）：预聚合的统计数据，如每小时各渠道扫码量、每日各渠道添加率，也存储在ClickHouse，用于快速看板查询。

ClickHouse的聚合表使用SummingMergeTree引擎，定时聚合，查询时无需实时计算。

四、实时计算：漏斗与归因

一些复杂指标需要实时计算，比如每个渠道的实时转化率。我们在Flink中维护状态，计算滑动窗口内的指标。

归因计算：用户添加事件到达时，关联最近30分钟内的扫码事件（根据IP和设备指纹），按最后点击归因原则分配渠道，然后更新DWS层的渠道转化数。

五、可视化看板

前端使用Vue + ECharts，从ClickHouse查询聚合数据。对于实时性要求高的看板（如今日实时扫码量），直接查询Flink输出的实时数据（存储在Redis中）。

企销宝的运营看板包括：

六、数据质量监控

七、性能优化

八、一个查询示例

运营想看“近7天抖音渠道的扫码趋势”，SQL如下：

SELECT toDate(created_at) as day, count(*) as scan_cnt

FROM dwd_scan_log

WHERE utm_source = 'dy' AND created_at >= now() - interval 7 day

GROUP BY day

ORDER BY day

在ClickHouse中，这种聚合查询秒级返回。

结语：

一套完整的活码数据ETL管道，需要从采集、清洗、存储到可视化，每个环节精心设计。企销宝的数据平台基于Flink + ClickHouse构建，实现了百万级扫码数据的实时分析，为运营决策提供了强大支持。