Pentaho数据集成的基本概述

494 阅读6分钟

阅读时间: 4 分钟

Do data integration using pentaho kettle by Mostafib | Fiverr

让我们来了解一下Pentaho数据集成的基本概况,它的重要性,ETL过程等。那么,让我们开始吧。

第一个问题是,什么是Pentaho?

Pentaho是一个领先的商业智能工具,它使一个组织能够轻松访问、组织和分析数据。现在,它非常流行,并为数据整合的最常用和首选组件设定了基准。

Pentaho数据集成提供了提取、转换和加载即ETL功能,促进了采集、清理和存储数据的过程,使用相同的格式,不仅对终端用户,而且对物联网技术都是可访问和兼容的格式。

提取、转换和加载(ETL)过程

ETL是一个分三步走的过程,包括首先从不同的源系统中提取数据,并对其进行巨大的改变,然后进行转换,实现改变数据类型或进行请求计算等操作。 数据转换后,然后加载到目标数据存储,通常是数据仓库。

ETL过程需要各利益相关者的积极投入,包括开发人员、分析师、测试人员、高层管理人员,并且在技术上具有挑战性。

在Pentaho中,有几个开发工具可以实现ETL流程。

  • Spoon是一个桌面应用程序,作为图形界面,用于转换和工作的编辑器。通过Spoon,我们可以编写、编辑、运行和调试转换。我们还可以用Spoon来输入许可证密钥,添加数据连接和定义安全性。
  • **Pan-**Pan是用于执行转换的PDI命令行工具。转换可以来自PDI资源库或本地文件。
  • **Kitchen-**Kitchen是一个程序,可以执行Spoon在XML或数据库资源库中设计的作业。
  • Carte- Carte是一个简单的网络服务器,允许你远程运行转换和作业。它接收包含要运行的转换和执行配置的XML(使用一个小的Servlet)。

如何用PDI做一个数据库连接?

  • 如果我们想连接同一数据库中的两个表,我们可以使用 "表输入 "步骤,在SQL中进行连接。
  • 如果我们想连接不在同一数据库中的2个表。我们可以使用 "数据库连接"。

开始使用PDI客户端

PDI客户端(也被称为Spoon)是一个桌面应用程序,使我们能够建立转换计划和运行作业。

PDI客户端的常见用途包括。

  • 不同数据库和应用程序之间的数据迁移
  • 充分利用云、集群和大规模并行处理环境,将巨大的数据集加载到数据库中
  • 数据清洗,步骤从非常简单到非常复杂的转换不等
  • 数据整合,包括利用实时ETL作为Pentaho报告的数据源的能力

在Pentaho数据集成中使用Pentaho存储库

Pentaho数据集成客户端提供几种不同类型的文件存储。如果一个团队需要一个ETL协作站点,建议使用Pentaho Repository。

此外,为了维护和管理我们的任何操作和变化,Pentaho Repository还提供了一个全面的审查历史,以跟踪变化,比较更新,并在必要时恢复到以前的版本。这些功能,以及业务安全和内容锁定,使Pentaho Repository成为理想的协作平台

Pentaho Data Integratioin的特点

  • 它提供了几乎没有代码开发方法的能力。
  • 它在开发和部署方面提供了平台独立性的能力。
  • Pentaho数据集成有能力处理庞大的数据,在某些情况下,数据大小是TB级的。
  • 它有能力与大数据集成,即它支持AVRO、Cassandra、Hadoop、MongoDB等。
  • Pentaho数据集成有能力与Rest客户端、HTTP客户端交互。

Pentaho 9.2的新特性

从Pentaho访问Microsoft Azure- 我们现在可以使用以下方法从Pentaho访问Microsoft Azure。

  • 通过VFS连接到Azure Data Lake Storage Gen2和Blob Storage服务。
  • 作为Azure SQL数据库的PDI和PUC数据源。
  • 使用新的批量加载到Azure SQL DB PDI工作条目,从Azure数据湖存储将数据加载到AzureSQL数据库。

**从PDI访问Cloudera数据平台-**我们现在可以在PDI中访问和处理来自Cloudera数据平台的数据。Cloudera数据平台(CDP)是一个分析和管理平台,在集中管理的业务数据上提供自助式访问集成的、多功能的分析,具有安全性和治理性。

通过Apache Hadoop驱动从PDI访问HDFS拷贝文件操作-- 我们可以访问并使用已安装的Apache Hadoop驱动进行HDFS拷贝文件操作,以及执行输入输出转换和作业。该驱动在安全和不安全的集群中都能工作。

**Pentaho升级安装器-**新的Pentaho升级安装器是一个易于使用的界面工具,可以自动将新的发布版本应用于你的Pentaho产品。我们可以通过Pentaho升级安装器,使用这个简化的升级过程将服务器或工作站上的Pentaho产品的8.3版本直接升级到9.2版本。

小型平台增强-

  • 性能日志- 用户可以利用Pentaho日志配置审计和跟踪方式的改进,结合来自多个应用程序的日志,以全面查看和分析整个平台的活动。
  • HBase参数支持命名空间和表名文件- PDI中的HBase步骤现在支持使用命名空间和表名文件定义中的默认值和变量。

总结

如今,在正确的时间使用正确的商业智能工具是非常重要的,这样任何组织都可以在正确的时间做出正确的决定。为了实现这一点,像Pentaho等工具如今被广泛使用。它强大的组件和高性能使企业能够释放数据的真正价值。正如我们所知,如今数据是最重要的东西,而选择哪些数据对我们的组织有利也是一个重要的任务。因此,数据需要被正确地收集、清理和分析,以确定优势、风险并获得新的洞察力。这就是Pentaho进入市场的原因,它是一个完整的套件,提供卓越的数据整合、报告和呈现能力。它还能够处理大量的数据,快速处理数据,并与各种数据源一起工作。

Scala Future