数据抽取工具 kettle连接控件

858 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第3天,点击查看活动详情

概述

连接是转换里面的第十个分类,连接分类下的控件一般都是将多个数据集通过关键字进行连接起来,形成一个数据集的过程。

合并记录

合并记录是用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。注意旧数据和新数据需要事先按照关键字段排序,并且旧数据和新数据要有相同的字段名称

合并后的数据将包括旧数据来源和新数据来源里的所有数据,对于变化的数据,使用新数据代替旧数据,同时在结果里用一个标示字段,来指定新旧数据的比较结果。

image.png

1. 旧数据源:选择旧数据来源的步骤

2. 新数据源:选择新数据来源的步骤

3. 标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种

① “identical” – 旧数据和新数据一样

② “changed” – 数据发生了变化;

③ “new” – 新数据中有而旧数据中没有的记录

④ “deleted” –旧数据中有而新数据中没有的记录

4. 关键字段:用于定位判断两个数据源中的同一条记录的字段。

5. 比较字段:对于两个数据源中的同一条记录,指定需要比较的字段

本章节任务:利用合并记录控件比较合并记录-新旧excel的数据,并预览数据,查看标志字段的内容。

image.png

image.png

记录集连接

记录集连接可以对两个步骤中的数据流进行左连接,右连接,内连接,外连接。此控件功能比较强大,企业做ETL开发会经常用到此控件,但是需要注意在进行记录集连接之前,需要对记录集的数据进行排序,并且排序的字段还一定要选两个表关联的字段,否则数据错乱,出现null值。

image.png

1. 选择需要连接的两个数据流的步骤

2. 选择连接类型,一共有四个:INNER,LEFT OUTER,RIGHT OUTER,FULL OUTER

3. 从两个数据流步骤里面选出连接字段

本章节任务:使用记录集连接控件对数据库表satff和department按照部门id分别进行内连接,左连接,右连接,外连接,查看数据的不同

注意:两个表进行排序记录的时候,排序的字段一定要选择部门id,否则数据会不正确

image.png