PDI:勺子的介绍

225 阅读4分钟

阅读时间: 4 分钟

Pentaho Integration: ETL Development and Reporting - Paris FrancePentaho Integration: ETL Development and Reporting - Paris France

Pentaho数据集成

先决条件:关于大数据和ETL的基本知识。

什么是PDI?

PDI是Pentaho数据集成的缩写。它是一个为我们提供ETL功能的工具,可以有效地管理巨大而复杂的数据摄入管道。

它的使用情况包括。

  • 将巨大的数据集加载到数据库。
  • 对数据进行简单到复杂的转换。
  • 不同数据库之间的数据迁移。

以及更多...

在你的系统中安装PDI。

我们将首先安装PDI桌面客户端应用程序,也就是所谓的Spoon。请按照以下步骤在您的系统中安装PDI。

**第1步:**从SourceForge下载:https://sourceforge.net/projects/pentaho/files/latest/download

第2步: 确保你的系统中安装了Java 8或更高版本。

**第三步:**解压下载的压缩文件。

**第四步:**确保环境变量被设置。

有一个windows批处理文件(set-pentaho-env.bat)可以让你为PDI设置特定的环境变量。你可以在data-integration文件夹中找到它。

第5步: 创建一个快捷方式并运行Spoon。你会发现一个名为spoon.bat的批处理文件。在你的桌面上或任何其他喜欢的地方为它创建一个快捷方式。最后,运行该文件。(允许防火墙的网络访问)。

你将会看到一个直观的用户友好界面,我们可以用它来创建数据摄取管道。

PDI Spoon Welcome ScreenPDI Spoon Welcome Screen

使用Spoon工作。

我将向你展示一个基本的转换,以显示Spoon的工作。

第一步。

我们将从创建一个转换开始,要打开一个新的转换,只需在欢迎屏幕上点击 "新转换 "选项,或者你也可以在视图标签中右击 "转换 "来创建一个新的转换。

第二步。

现在你可以在 "设计 "选项卡中看到你可以执行的各种步骤。各种步骤都有分类,可以在各自的类别下找到。转到输入,把CSV文件输入拖到工作区。现在双击CSV文件输入步骤。会出现一个配置窗口。接下来,你需要点击浏览并选择你的CSV文件。为了演示,我们将使用安装文件夹中已经提供的CSV文件样本,其路径为: samples\transformations\files\sales_data.csv。

CSV File Input ConfigurationCSV File Input Configuration

现在点击 "Get Fields",网格将用CSV文件中的数据进行更新。"预览 "选项显示文件的预览。

CSV file PreviewCSV file Preview

第三步。

现在我们可以进一步处理从输入步骤获得的数据。现在我们将添加一个过滤步骤。进入流程类别,并拖放 "过滤行 "步骤。现在点击CSV文件输入步骤,然后点击输出连接器,将其连接到 "过滤行 "步骤。你会被提示选择跳转的种类。

选择 "步骤的主要输出",如上图所示。

现在,双击 "过滤行 "步骤,对其进行配置。

现在,使用这个过滤器,我们要过滤掉 "POSTALCODE "列中的空值。要做到这一点,我们需要设置过滤条件。请按照下面所述设置过滤条件。

选择条件为 "NOT "字段为 "POSTALCODE",最后点击值,并点击确定以传递空值。

第四步。

接下来我们需要从过滤器中获取输出。

从输出类别中选择一个文本文件输出和一个EXCEL文件输出。现在从 "过滤器行 "连接一个输出跳转到 "Microsoft Excel输出 "文件,并选择 "结果为假 "选项,因为我们想把这个excel文件中的空值数据送去做进一步修正。然后从 "过滤行 "连接另一个输出跳转到 "文本输出文件",并选择 "结果为真 "选项,因为我们希望这个文本文件中的数据没有空值。

现在,让我们逐一配置输出文件。首先双击 "文本文件输出 "来配置它。点击浏览,设置你喜欢的位置,然后命名文件。然后将扩展名改为.csv,以获得csv文件的输出。另外,进入内容标签,将 "分隔符 "设置为逗号(,)。

同样地,设置 "微软输出文件 "的路径。

第5步。

最后,运行转换。再次点击运行。然后Spoon会提示你先保存转换,继续做。转换完成后,你会发现输出文件在各自的指定位置。检查输出文件,体验一下PDI的魅力。

这是一个非常基本的转换例子,可以让你开始。PDI还有很多其他的功能,可以用来执行各种不同的步骤,创建和管理大型复杂的数据摄入管道。

要获得更多关于所有功能的信息,请查看这里的官方文档 :https://help.hitachivantara.com/Documentation/Pentaho/

为了保持与新的和即将到来的技术的更新,请继续关注。 Knoldus博客

knoldus-advt-stickerknoldus-advt-sticker

分享Knol。

相关信息