Pentaho数据集成--转换入门

279 阅读6分钟

阅读时间: 5 分钟

Pentaho数据集成(PDI)是一个提取、转换和加载(ETL)解决方案,它采用了创新的元数据驱动方法。

PDI包括DI服务器,一个设计工具,三个实用工具和几个插件。

Pentaho数据集成的用途

Pentaho数据集成是一个非常灵活的工具,可以解决大量的使用情况,包括。

  • 内置支持缓慢变化的维度和代用键创建的数据仓库人口
  • 不同数据库和应用程序之间的数据迁移
  • 充分利用云、集群和大规模并行处理环境,将巨大的数据集加载到数据库中。
  • 通过从非常简单到非常复杂的转换步骤进行数据清理
  • 数据集成,包括利用实时ETL作为Pentaho报告的数据源的能力
  • ROLAP模式的快速原型设计
  • Hadoop功能。Hadoop作业执行和调度,简单的Hadoop MapReduce设计,Amazon EMR集成

转化

一个转换是一个被称为步骤的逻辑任务的网络。转化本质上是数据流。在下面的例子中,数据库开发人员创建了一个转换,读取一个平面文件,对其进行过滤、排序,并将其加载到一个关系数据库表中。

与转换相关的两个主要组件是步骤跳转

步数(Streps

步骤是一个转换的构件,例如一个文本文件的输入或一个表的输出。在Pentaho数据集成中,有超过140个步骤,它们根据功能进行分组;例如,输入,输出,脚本,等等。转换中的每个步骤都被设计为执行一个特定的任务,例如从一个平面文件中读取数据,过滤行,并记录到数据库,如上例所示。步骤可以被配置为执行你所需要的任务。

节点

Hops是连接步骤的数据通路,允许模式元数据从一个步骤传递到另一个步骤。在上面的图片中,似乎有一个顺序的执行发生;然而,这不是真的。节点决定了数据步骤的流动,而不一定是它们运行的顺序。当你运行一个转换时,每个步骤都在自己的线程中启动,推送和传递数据。

创建转换

按照这些说明开始创建你的转换。

  1. 点击文件>新建>转换
  2. 在设计标签下,展开输入节点,然后选择并拖动一个生成行步骤到画布上。注意:如果你不知道在哪里找到一个步骤,在Spoon的左角有一个搜索功能。在搜索框中输入步骤的名称。可能的匹配会出现在其相关的节点下。当你完成搜索后,清除你的搜索条件。
  3. 展开流量节点;点击并拖动一个**Dummy(什么都不做)**步骤到画布上。
  4. 要想把这些步骤相互连接起来,你必须添加一个跳跃。跳转描述了转换中各步骤之间的数据流。要创建跳转,请点击生成行步骤,然后按住<SHIFT>键,画一条线到**Dummy(什么都不做)**步骤。注意:另外,你也可以通过将鼠标悬停在一个步骤上,直到悬停菜单出现,来绘制跳线。从源步骤中拖动跳跃画家图标到你的目标步骤。
  5. 双击 "生成行"步骤,打开其编辑属性对话框。
  6. 限制字段中,输入100000。这将生成的行数限制为100,000。
  7. 名称下,在名称字段中输入FirstCol
  8. 然后是类型,键入字符串
  9. Length下,键入150
  10. Value下,输入My First Step。你的条目应该如下图所示。单击 "**确定 "**退出 "生成行 "编辑属性对话框。
  11. 现在,保存你的转换。

保存你的转换

  1. 在Spoon中,点击文件>另存为。出现 "转换属性"对话框。
  2. 转换名称字段中,输入First Transformation
  3. 目录领域,点击文件夹图标,选择一个你将保存你的转换的资源库文件夹。
  4. 展开主目录,双击管理员文件夹。你的转换将被保存在DI资源库的管理文件夹中。
  5. 单击 "确定"退出 "转换属性"对话框。出现 "输入注释"对话框。
  6. 在 "输入注释"对话框中点击,按<删除>删除默认文本字符串。键入一个关于你的转换的有意义的评论。注释和你的转换在DI存储库中会被跟踪以达到版本控制的目的。
  7. 单击 "确定"退出 "输入注释"对话框并保存你的转换。

在本地运行你的转换

  1. 在Spoon中,转到文件>打开。存储库的内容会出现。
  2. 导航到包含你的转换的文件夹。如果你是一个有管理权限的用户,你可能会看到其他用户的文件夹。
  3. 双击你的转换,在Spoon工作区中打开它。注意:如果你遵循练习说明,转换的名称是First Transformation
  4. 在工作区的左上角,点击运行。出现 "执行转换"对话框。注意,默认情况下,本地执行已被启用。
  5. 点击启动执行结果出现在下部窗格中。
  6. 检查步骤指标下的内容。

建立一个作业

  1. 在Spoon的菜单栏中,进入文件>新建>作业。或者点击工具栏中的(新建)。
  2. 单击 "设计"选项卡。包含作业项目的节点出现。
  3. 展开 "常规"节点,选择 "开始"作业条目。
  4. 将开始工作条目拖到右边的工作区(画布)。开始工作条目定义了执行开始的位置。
  5. 展开常规节点,选择并拖动一个转换工作条目到工作区。
  6. 使用跳线将 "开始 "工作条目与 "转换 "工作条目连接起来。
  7. 双击转换工作条目,打开其属性对话框。
  8. 转换规格下,点击通过名称和目录指定
  9. 点击(浏览),在解决方案库中找到你的转换。
  10. 选择资源库对象视图中,展开目录。找到First Transformation并点击OK。转换的名称和它的位置出现在通过名称和目录指定的选项旁边。
  11. 转换规范下,点击确定
  12. 保存你的作业;称它为第一作业。用来保存作业的步骤与保存转换几乎相同。
  13. 出现 "执行作业"对话框。
  14. 执行结果 面板打开,显示作业指标和作业执行的日志信息。

执行转换

当你完成了对转换或作业的修改,你可以通过点击主菜单工具栏上的../pdi_admin_guide/images/run.png (运行),或按F9来运行它。有三个选项允许你决定在哪里执行你的转换。

  • 本地执行- 转换或作业在你当前使用的机器上执行。
  • 远程执行- 允许你指定一个你希望执行的远程服务器。这个功能要求你在远程机器上运行数据集成服务器或安装数据集成并运行Carte服务。要使用远程执行,你首先必须设置一个从属服务器。
  • 集群执行- 允许你在集群环境下执行转换。

总结

在这篇博客中,我们已经学习了关于转换的知识,我们如何创建、保存和执行转换