【Apache Hop】第一章、Apache Hop 是什么

833 阅读2分钟

一、Hop是什么:

援引官网的一句话:Hop is an entirely new open source data integration platform that is easy to use, fast and flexible.(Hop是一个全新的开源数据集成平台,易于使用、快速灵活)

二、Hop的起源:

Apache Hop 是Pentaho Data Integration (PDI) 的分支项目。Pentaho Data Integration 之前也被称为Kettle。因此,Apache Hop 与Kettle(现在的Pentaho Data Integration)之间存在关联。Hop 从Kettle 分支出来,旨在提供更加灵活、现代化的数据集成解决方案,并继续在Apache Software Foundation的支持下发展壮大。Hop 可以被认为是对Kettle 的一个进化和改进,为用户提供了更多的功能和灵活性。

所以在学习hop的时候遇到问题也可以去搜索一下kettle的文档,因为他们的组件相似度很高。

三、Hop的特点

1.元数据驱动

Hop完全由元数据驱动,每个对象类型都描述了如何读取、操作或写入数据,或如何编排工作流和流水线。

2.一次设计,随时随地运行

Hop的工作流和流水线是需要定义如何处理数据的。一旦设计好,流水线就可以在任何受支持的运行时上执行。Hop内置支持在本地运行和远程运行流水线,或通过Apache Beam运行时在Apache Spark、Apache Flink或Google Dataflow上运行流水线。

3.可视化开发

Hop通过直观的拖放界面允许用户创建工作流程和流水线。这种方法使数据开发人员和工程师能够专注于需要实现的业务逻辑和任务,而不是陷入这些任务如何执行的技术细节中。通过视觉设计工作流程和流水线,用户可以快速高效地构建数据集成过程,而无需编写大量代码,从而实现更快的开发和更容易的维护。这种直观的界面促进了协作,并加速了数据解决方案的实施。

4.内置生命周期管理

Hop可以帮助用户管理、测试和部署工作流程和流水线。开发人员和工程师可以通过 Hop Gui 管理整个项目生命周期:在不同项目、环境和运行配置之间切换,管理 git 版本等。这样一来,用户可以更轻松地管理他们的项目,提高效率并确保流程的顺利运行。

四、Hop的使用场景

1.对文档数据的处理

常用的如txt、json、excel、yaml等

2.对数据库数据的处理

目前适配了市面上常见的数据库

3.对接口数据的处理

支持http请求

五、Hop的部署环境

windows linux 均可 依赖jdk 目前还可以通过docker部署

六、官网地址

hop.apache.org/

七、GitHub地址

github.com/apache/hop/