大数据分析——Apache Doris（六十四）需要对监听的源表以及变更字段进行配置，在配置的interval时间窗口内

携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第18天，点击查看活动详情

需要对监听的源表以及变更字段进行配置，在配置的interval时间窗口内多个源表进行扫描，然后将结果进行merge后生成参数，根据配置的threshold对参数进行拆分后传入多个insert sql中，并在每天凌晨进行T+1的全量聚合，修复微批计算的错误数据。

我们基于拉取Routine Load和Flink数据以及服务上报的方式实现了数据中台完善的数据血缘，供数据开发/数据分析师进行查询。

由于我们的Flink开发模式为提交jar的形式，为了获取到任务的血缘，我们对每个算子的命名进行了格式化封装，血缘服务定时的拉取/v1/jobs/overview数据进行解析，我们将不同算子的格式命名封装为以下几种：

通过血缘服务内部的解析后，批量地将血缘数据拆分成了Node与Edge存储到了NebulaGraph中，前台服务进行查询即可获得如下图所示的一条完整血缘：

基于围绕Doris的系统架构调整，我们完成了数据中台2.0架构

2. 数据占用空间降低，由原来Es中的1T左右降低到了200G左右

3. 数仓使用成本降低