无事来学学--Kettle中输入,输出组件的使用

835 阅读4分钟

输入组件

kettle里面的输入,就是用来抽取数据或生成数据,是ETL操作的E。

CSV文件

一种带有固定格式的文本文件。注意:获取字段的时候可以调整自己的字段类型,格式,满足自己的需求哦。

imageimage

文本文件输入,提取日志信息的数据是开发常见的操作,日志信息基本都是文本类型。

操作实例:

首先要获取到要抽取的文本文件哦。

image

image

可以选择自己的分隔符哦!

image

image

获取字段,如下所示:

image

image

微软的Excel目前有两种后缀名的文件分别为:xls和xlsx。注意:xls:2007年之前,xlsx:2007年之后。

image

image

可以选择自己的Sheet页。

image

image

获取到Excel输入的字段,可以手动调整字段类型。

image

image

多文件合并,数据往往也是以多个文件的形式出现,有的数据还会分散在多个子文件夹。所以合并数据也是开发中非常常见的操作。

image

image

XML 指可扩展标记语言(EXtensible Markup Language)

XML 被设计用来传输和存储数据。

image image

XPath即为XML路径语言(XML Path Language

它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。

XPath-语法

选取节点 XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式:

image image

XPath,路径表达式,示例,如下所示:

image image

Get data from XML组件,具体使用如下所示:

image

image

获取XML文档的所有路径,如果需要考虑命名空间,可以进行勾选,如下所示:

image

image

字段

这里获取字段,如果获取不到你想要的结果,需要自己手动编写名称,XML路径,切记,XML路径是相对于自己最终获取数据的路径,节点、结果类型、类型等等自己可以自行选择即可。

image

image

生成记录

数据仓库中绝大多数的数据都是业务系统生成的动态数据,但是其中一部分维度数据不是动态的,比如:日期维度。静态维度数据就可以提前生成。

image image

8、JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。JSON核心概念:数组、对象、属性。数组:[ ]、对象:{ }、属性:key:value。

JSONPath类似于XPath在xml文档中的定位,JsonPath表达式通常是用来路径检索或设置Json的。其表达式可以接受“dot–notation”(点记法)和“bracket–notation”(括号记法)格式。

1)、点记法:.store.book[0].title。推荐点记法哦。

2)、括号记法:[‘store’][‘book’][0][‘title’]。

JSONPath-操作符,如下所示:

image

image

JSON Input图元使用,如下所示:

image

image

字段,可以根据自己的需求,进行填写字段。特别注意路径的写法和规范哦。

image

image

可以多次使用JSON Input,最终查询出自己想要的字段即可。

image

image

第二个JSON Input获取第一个JSON Input的Json值。

image

image

Kettle的表输入,这里,以Mysql为例,将mysql的jar包放入到\pdi-ce-8.2.0.0-342\data-integration\lib目录下面。

 

数据库驱动是不同数据库开发商(比如oracle mysql等)为了某一种开发语言环境(比如java)能够实现统一的数据库调用而开发的一个程序,他的作用相当于一个翻译人员。

image

Kettle的表输入,使用如下所示:

image

输出组件

输出是转换里面的第二个分类。输出属于ETL的L,L就是Load加载。微软的Excel目前有两种后缀名的文件分别为:xls和xlsx。xls:2007年之前。xlsx:2007年之后。

 

Excel输出、Microsoft Excel输出的区别,Excel输出只能xls后缀名称的文件,Microsoft Excel输出可以生成xls后缀和xlsx后缀名称的文件的。

操作实例:

imageimage

Excel输出,可以获取字段,如下所示:

image

image

Microsoft Excel 输出,指定输出文件的格式,可以选择xlsx、xls格式的。

image

image

获取字段,如下所示:

image

image

文本文件输出,数据操作常见的格式是:TXT和CSV。

image

image

获取字段,如下所示:

image

image

SQL文件输出可以导出数据库表的结构和数据。

image

image

Kettle的表输出,就是把数据写入到指定的表!

image

image

Kettle的更新

就是把数据库已经存在的记录与数据流里面的记录进行比对,如果不同就进行更新。注意:如果记录不存在,则会出现错误!

 

image

image

Kettle的插入更新

就是把数据库已经存在的记录与数据流里面的记录进行比对,如果不同就进行更新。如果记录不存在,则会插入数据!

imageimage

自定义常量数据

就是生成key-value形式的常量数据。

image

image

自定义常量数据

指定字段常量的值。

image

image

删除

删除数据库表中指定条件的数据。