数据抽取工具 kettle统计控件

252 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第4天,点击查看活动详情

概述

统计是转换里面的第十三个分类,统计控件可以提供数据的采样和统计功能。

分组

分组控件的功能类似于GROUP BY,可以按照指定的一个或者几个字段进行分组,然后其余字段可以按照聚合函数进行合并计算。注意,在进行分组之前,数据最好先进行排序。

image.png

1. 选择分组字段

2. 给其余字段选择合适的聚合函数进行计算

本章节任务:给表staff的数据按照部门进行分组,求出各部门人数以及各部门员工的平均年龄。

image.png

Kettle映射控件

映射是转换里面的第十八个分类,映射可以用来定义子转换,方便代码封装和重用。

映射

映射(子转换)是用来配置子转换,对子转换进行调用的一个步骤。

image.png

映射输入规范是输入字段,由调用的转换输入。

image.png

映射输出规范是向调用的转换输出所有列,不做任何处理。

image.png

本章节任务:封装一个子转换能够通过dept_id求出dept_name,然后使用另外一个转换调用此子转换,求出数据库staff表id=3的员工的姓名,年龄,部门id,部门姓名,并输出到控制台。

image.png

image.png

image.png

image.png

Kettle脚本控件

脚本是转换的第七个分类,脚本就是直接通过写程序代码完成一些复杂的操作。

执行SQL脚本

执行sql脚本控件就是连接到数据库里面,然后执行自己写的一些sql语句。

image.png 1. 选择合适的数据库连接

2. 填入要执行的sql语句

本章节任务:利用执行sql脚本控件将student表数据的atguigu的年龄更新为18。

image.png