DPDI Online 您的智能ETL任务调度专家

266 阅读7分钟

DPDI Online 您的智能ETL任务调度专家

1.DPDI简介   

DPDI Online 是一款基于Kettle的强大在线任务调度平台,凭借其高效与灵活性,专为调度和监控Kettle客户端生成的ETL任务而设计

DPDI Online 具有以下特性

l多服务器多版本支持:无缝整合不同服务器和Kettle版本,确保任务执行兼容性和一致性

l联合开发:由三倍镜成员团队共同研发,确保平台的创新性和专业性

l灵活部署:支持属地化部署,满足您的特定业务需求

l定制化开发:提供个性化定制服务,以适应不断变化的市场需求

2.DPDI背景  

Pentaho Data Integration简介

PDI也称为Kettle,Kettle是利用Spoon设计器设计转换(Transformation)和作业(Job),转换主要是针对数据的各种处理,⼀个转换⾥可以包含多个步骤(Step),作业是处理流程,⼀个作业⾥包括多个作业项(Job Entry),⼀个作业项代表了⼀项⼯作,转换也是⼀个作业项

Pentaho Data Integration调度监控

Pentaho Data Integration(kettle)作为用户规模最多的开源ETL工具,强大简洁的功能深受广大ETL从业者的欢迎。但kettle本身的调度监控功能却非常弱。Pentaho官方都建议采用crontab(Unix,linux平台)和计划任务(Windows平台)来完成调度功能。所以大家在实施kettle作业调度功能的时候,通常采用以下几种方式:使用spoon程序来启动Job,使用crontab或计划任务,自主开发java程序来调用kettle的类库

DPDI online在线调度管理    

DPDI online是基于Pentaho Data Integration构建的一个高效、灵活的在线任务调度(Dispatch)平台。它允许开发人员和数据工程师以简单的方式定义、管理和执行定时的数据处理任务,是大数据环境中的ETL流程自动化的好帮手

3.DPDI使用  

3.1 DPDI登录  

DPDI online登录域名:dpdi.pizzalord.site

用户名:dpdi

密 码:dpdi

图片

3.2 DPDI核心功能  

3.2.1 工作台  

DPDI online首页主要是显示任务监控信息,当一个任务(kettle作业或转换)启动后,这个任务就处于被DPDI监控状态下,首页主要展示了任务运行统计指标和任务运行趋势,任务运行统计包含四个指标,总执行任务数、执行中任务数(执行中和待执行任务)、成功任务数、失败任务数,每个指标可点击跳转到日志明细,方便用户快速查看任务运行情况。任务运行趋势可对近一周,近一月,所有任务执行趋势及占比分析,让使用者很清晰的监控任务运行情况

图片

3.2.2 资源管理  

资源管理主要是对任务的运行环境进行配置和管理,对kettle客户端开发好的任务(作业和转化)进行管理以及对任务需要的数据库连接进行配置和管理,包括服务器管理、kettle版本管理、资源库管理、数据库管理四个功能模块

3.2.2.1 运行主机  

服务器管理可对任务运行环境进行新增和编辑,可省去使用者对任务运行环境的部署,用户只需要新增配置服务器信息,DPDI在任务运行时会自动部署任务运行环境到指定路径,大大省去了使用者部署成本,DPDI也提供在线的运行环境,只需要用户的数据库环境能被访问即可在DPDI online实现在线任务调度管理

配置运行主机步骤如下:

点新增后编辑服务器信息,只需要用户输入正确的连接信息,点确定后等待自动部署即可

图片

当状态变成初始化成功代表任务运行服务器环境配置成功,如初始化失败会有响应的报错信息提示

图片

3.2.2.2 kettle版本管理  

kettle版本管理可对DPI官网发布的版本进行添加和管理,可新增和修改版本中对应的JAR(对lib目录下的JAR进行新增和修改),该功能主要是帮助用户对多版本运行需求的管理,DPDI已管理和维护了6个版本,用户部署后可直接选择使用,体验版添加版本功能未开发如需其它版本可等后续迭代版本上线

图片

用户在操作栏可对驱动包进行管理(新增和删除)

图片

3.2.2.3 资源库管理  

资源库管理主要是对kettle客户端开发的任务(转换和作业)进行管理,可对kettle开发的资源库进行导入(包括数据资源库和文件资源库)以及单个任务文件的导入。也可对任务进行简单的预览,可对导入的历史版本进行监控和查看

资源库管理使用

新建资源库,这里的资源库名称可以和kettle客户端开发的资源库名不一致    

图片

导入资源库,选择资源库名称然后上传kettle客户端开发导出的资源库(数据库资源库和文件资源库均可)文件即可

图片

导入历史,可以查看导入资源库的历史记录,以及导入的进度和任务数(作业和转换)

图片

操作资源库,可对资源库进行修改、编辑、删除,进入资源库明细后可查看资源库文件目录结构及具体的任务(作业和转换),也可以新增、删除目录和导入新的任务文件

图片    

图片

预览任务,进入数据仓库资源库明细后点预览按钮可以预览kettle任务

图片

3.2.2.4 连接管理  

数据库管理,可配置kettle任务需要的JNDI连接信息(注:JDBC连接方式只需在kettle任务配置即可,DPDI会自动获取JDBC连接信息),具体配置项包含数据库名称(这里需要和kettle配置的JNDI名称一致)、数据库描述(可随意填写)、数据库驱动、数据库URL(连接需要的更多设置用&符拼接)、数据库用户名、数据库密码

图片

3.2.3 任务管理  

任务管理主要是对kettle开发的任务进行调度配置管理,任务运行的日志进行查看和监控以及任务运行情况的通知,主要包含任务管理、日志管理、预警配置和预警记录四个功能模块

3.2.3.1任务配置  

任务配置可对kettle开发的任务进行调度管理,包含基础信息的设定(任务名称必须唯一、日志级别、任务类型),运行方式的选择(自动可通过手工输入cron表达式也可以点设置通过页面配置),运行环境的选择(运行主机选择前面配置的即可、运行版本选择支持的版本即可、最小内存必选大于512、最大内存),任务参数的配置

图片

任务配置可对配置中的任务进行修改删除,对自动、手动任务手动调度,对自动任务进行启动和暂停管理

图片

3.2.3.2 日志管理  

日志管理,是对kettle任务运行的情况进行日志记录,详尽的日志管理能帮助追踪任务状态和历史,可通过任务名称和任务状态以及运行时间进行筛选查看,方便用户快速定位、诊断问题

图片

3.2.3.3 预警配置  

预警配置,任务运行情况的通知,支持钉钉、邮件、短信等通知方式(内测中,敬请期待)

3.2.3.4 预警记录  

预警记录,主要对预警通知的历史记录(内测中,敬请期待)

4.帮助和意见反馈  

DPDI Online 为您的ETL任务管理带来革命性的便利与高效,立即体验让数据流转更加自如,您可以通过右上角获取帮助文档,可以通过意见箱给我们反馈DPDI产品的使用体验,也期待给我们更多的建议

图片    

5.联系我们  

QQ:

三倍镜-Lonely :2591502509

三倍镜-Pizza: 736404069

三倍镜-Dragon : 420773639

QQ群:755592797

商务合作

  • 社区版长期免费使用,付费咨询,支持定制化开发

  • 欢迎项目合作

本文使用 文章同步助手 同步