〇、介绍
- ETL:是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。
- 抽取(Extract):一般抽取过程需要连接到不同的数据源,以便为随后的步 骤提供数据。
- 转换(Transform):任何对数据的处理过程都是转换。
- 加载(Load):将数据加载到目标系统的所有操作。
- ETL的工作职能:从不同的数据源统一抽取数据,经整理后对外提供:
- Kettle的特性:
一、Kettle的基本使用
1. 下载与使用
- 官网下载
- 启动:
- 图形界面启动:windows下运行spoon.bat,macOS下运行spoon.sh,启动成功效果如图:
- Kettle 的几个子程序的功能
- Spoon.bat: 图形界面方式启动作业和转换设计器。
- Pan.bat: 命令行方式执行转换。
- Kitchen.bat: 命令行方式执行作业。
- Carte.bat: 启动web服务,用于 Kettle 的远程运行或 集群运行。
- Encr.bat: 密码加密
- 图形界面启动:windows下运行spoon.bat,macOS下运行spoon.sh,启动成功效果如图:
2. Quick Start(转换)
- 案例:生成随机数并输出到文件(sources/01/quickstart.ktr)
- 新建随机数生成组件(输入):
- 新建输出到文本文件组件(输出):
- 连线:
- 执行转换:
- 查看输出效果:
- 新建随机数生成组件(输入):
- 字段选择:
- 作用:转换并提取部分数据
- 作用:转换并提取部分数据
- 获取同一个转换的多个结果:
- 右键选择“改变开始复制的数量”,本质是多线程并行执行
- 效果:
- 右键选择“改变开始复制的数量”,本质是多线程并行执行
- 计算器:
- 功能:将源数据根据设定的计算规则,计算后输出(可以输出源数据,也可以输出计算结果)
- 效果:
- 功能:将源数据根据设定的计算规则,计算后输出(可以输出源数据,也可以输出计算结果)
- 记录集连接
- 功能:(个人理解)实现类似于sql中join的效果
- 自定义常量数据:类似于一个数据库的表,元数据就是列明
- 效果: