数据抽取工具 kettle安装部署携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第34天，点击查看

携手创作，共同成长！这是我参与「掘金日新计划 · 8 月更文挑战」的第34天，点击查看活动详情

Kettle下载

官网地址

community.hitachivantara.com/docs/DOC-10…

下载地址

sourceforge.net/projects/pe…

Kettle目录说明

classes:生命周期监听、注册表扩展、日志的配置文件
Data Integration.app:数据集成应用
Data Service JDBC Driver: JDBC驱动程序的数据服务
docs:文档
launcher:Kettle的启动配置
lib:支持库 jar包
libswt：Kettle图形库jar
plugins：插件
pwd：kettle集群配置文件
samples：自带例子
simple-jndi:jndi连接配置
system:系统目录
ui:软件界面

Kettle文件说明

Carte.bat/Carte.sh:启动集群命令
Encr.bat/encr.sh：kettle提供的加密算法
Import.bat/import.sh：导入命令
Kitchen.bat/kitchen:运行Job的命令
Pan.bat/pan.sh:运行转换的命令
set-pentaho-env.bat/set-pentaho-env.sh：设置环境变量脚本
Spoon.bat/spoon.sh：启动KettleUI界面
SpoonDebug.bat/spoonDebug.sh：以Debug的方式运行Kettle

Kettle安装部署

概述

在实际企业开发中，都是在本地Windows环境下进行kettle的job和Transformation开发的，可以在本地运行，也可以连接远程机器运行

安装

安装jdk，版本建议1.8及以上
下载kettle压缩包，因kettle为绿色软件，解压缩到任意本地路径即可
双击Spoon.bat，启动图形化界面工具，就可以直接使用了

Kettle界面简介

首页

转换

作业

Kettle转换初次体验

体验案例：将csv文件用Kettle转换成excel文件

1）在Kettle中新建一个转换，然后选择转换下面的“csv文件输入”和“Excel输出”控件

2）双击CSV文件输入文件控件，在弹出的设置框里找到对应的csv文件（尚硅谷大数据技术之Kettle\5.数据\input\01_kettle快速体验.csv），然后点击下面的获取字段按钮，将我们需要的字段加载到kettle中

3）按住键盘SHIFT键，并且点击鼠标左键将两个控件链接起来，链接时选择“主输出步骤”

4）双击Excel输出控件，在弹出的设置框里设置文件输出路径和文件名称，然后点击上面的字段框，依次点击下面的获取字段和最小宽度，获取到输出字段。

5）点击左上角的启动按钮，在弹出的设置框里点击启动，执行该转换。

6）查看kettle下方执行结果日志以及输出路径的Excel文件内容

Kettle核心概念

可视化编程

Kettle可以被归类为可视化编程语言(Visula Programming Languages,VPL),因为Kettle可以使用图形化的方式定义复杂的ETL程序和工作流。

可视化编程一直是Kettle里的核心概念，它可以让你快速构建复杂的ETL作业和减低维护工作量。它通过隐藏很多技术细节，使IT领域更贴近于商务领域。

Kettle里的代码就是转换和作业。

转换

转换(transaformation)负责数据的输入、转换、校验和输出等工作。Kettle 中使用转换完成数据 ETL 全部工作。转换由多个步骤 (Step) 组成，如文本文件输入，过滤输出行，执行 SQL 脚本等。各个步骤使用跳 (Hop) 来链接。跳定义了一个数据流通道，即数据由一个步骤流 (跳) 向下一个步骤。在 Kettle 中数据的最小单位是数据行（row），数据流中流动其实是缓存的行集 (RowSet) 。

步骤（Step）

步骤（控件）是转换里的基本的组成部分，快速入门的案例中就存在两个步骤， “CSV文件输入” 和 “Excel输出” 。

一个步骤有如下几个关键特性：

①步骤需要有一个名字，这个名字在同一个转换范围内唯一。

②每个步骤都会读、写数据行(唯一例外是“生成记录”步骤，该步骤只写数据)。

③步骤将数据写到与之相连的一个或多个输出跳（hop） ，再传送到跳的另一端的步骤。

④大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为分发和复制，

分发是目标步骤轮流接收记录，复制是所有的记录被同时发送到所有的目标步骤。

跳（Hop）

跳就是步骤之间带箭头的连线，跳定义了步骤之间的数据通路。

跳实际上是两个步骤之间的被称之为行集的数据行缓存，行集的大小可以在转换的设置里定义。当行集满了，向行集写数据的步骤将停止写入，直到行集里又有了空间。当行集空了，从行集读取数据的步骤停止读取，直到行集里又有可读的数据行。

元数据

每个步骤在输出数据行时都有对字段的描述，这种描述就是数据行的元数据。

通常包含下面一些信息。

①名称：数据行里的字段名是唯一的。

②数据类型：字段的数据类型。

③格式：数据显示的方式，如Integer的#、0.00。

④长度：字符串的长度或者BigNumber类型的长度。

⑤精度：BigNumber数据类型的十进制精度。

⑥货币符号：￥

⑦小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的，一般是点（.）或逗号（，）。

⑧分组符号：数值类型数据的分组符号，不同文化背景下数字里的分组符号也是不同的，一般是点（.）或逗号（，）或单引号（’）

数据类型

数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合，字段包含下面几种数据类型。

①String:字符类型数据

②Number:双精度浮点数。

③Integer:带符号长整型（64位）。

④BigNumber:任意精度数据。

⑤Date:带毫秒精度的日期时间值。

⑥Boolean:取值为true和false的布尔值。

⑦Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。

并行

跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行，这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里，我们经常要处理大量数据，所以这种高并发低消耗的方式也是ETL工具的核心需求。

对于kettle的转换，不能定义一个执行顺序，因为所有步骤都以并发方式执行：当转换启动后，所有步骤都同时启动，从它们的输入跳中读取数据，并把处理过的数据写到输出跳，直到输入跳里不再有数据，就中止步骤的运行。当所有的步骤都中止了，整个转换就中止了。

如果你想要一个任务沿着指定的顺序执行，那么就要使用下面所讲的“作业”！

作业

作业 (Job)，负责定义一个完成整个工作流的控制，比如将转换的结果发送邮件给相关人员。因为转换（transformation）以并行方式执行，所以必须存在一个串行的调度工具来执行转换，这就是 Kettle中的作业。