kettle开发篇-记录关联(笛卡尔积)-Day27

173 阅读2分钟

前言: 昨天我们讲了数据流相关操作,合并记录,通过合并记录,我们就可以用来比对两份新旧数据的变化情,并标记出记录是“identical”-旧数据和新数据一样、“changed”-数据发生了变化、“new”-新数据中有而旧数据中没有的记录、“deleted”-旧数据中有而新数据中没有的记录。四种状态,这个组件帮助了我们有效的去处理新旧数据被修改了但因数据量大很难一下找到数据修改变化的场景。

一、记录关联(笛卡尔积)

记录关联就是对两个数据流进行笛卡尔积操作。如下图所示,我们有两组数据分别为aaa和bbb,笛卡尔积后我们生成了4种结果,即2*2=4条记录。 image.png

记录关联(笛卡尔积)需要注意的是我们需要指定一个主步骤。即参考基准的数据。 image.png

二、任务实操

我们有这么一个需求就是从Excel读取两位和三位数,完成两位和三位数的组合(笛卡尔积),把结果保存到Excel. image.png

针对这个任务,我们最终的转换由两个Excel输入、记录关联、EXcel输出组成。通过对Excel输入和Excel输入2进行笛卡尔积组合,然后将计算结果输出至Excel输出。

image.png

因前面多次讲到了Excel输入和输出,在这边就不再重复阐述了,重点阐述下记录关联(笛卡尔输出)。记录关联的重点需要关注的是以哪个为主步骤,根据需求来看我们随便选择一个即可,然后我们运行转换即可看到我们笛卡尔积的运算结果了。

image.png

image.png