【个人开源】Dataroad 控制台使用指南

287 阅读3分钟

个人其他开源项目,欢迎Github点赞

Dataroad简介

概述

Dataroad是一款基于Flink的分布式离线/实时数据ETL工具,可实现多种异构数据源高效的数据同步。Dataroad吸收了FlinkX、DataX优秀的数据同步框架的设计思想和部分的插件功能,侧重于数据编排、处理转换、聚合计算等插件功能,提供了数据抽取、加载、过滤、转换、聚合计算、数据补全、分流合并等功能。同时Dataroad提供了Dashboard控制台,实现流程设计、编排、运行全生命周期管理,降低使用门槛。

另外,Dataroad采用SPI插件机制实现各组件,为组件的开发提供足够和扩展性和灵活度,方便开发人员自行扩展组件。

Dashboard指南

流程设计

创建流程

进入流程设计菜单,点击“新建流程”,进行流程创建,如下: dashboard-create.png 其中,新建流程可进行流程全局配置,详见流程设计章节

设计流程

新建好的流程,点击“设计流程”,进行流程设计,如下: dashboard-guide-designer.png 其中,可通过切换源码模式,查看流程设计对应存储结构。

  • 双击节点进行流程环节设置

dashboard-guide-designer-node.png

  • 双击线条进行流程分支设置

dashboard-guide-designer-line.png

查看流程JSON

点击查看流程JSON,可查看最终转换成的JSON流程定义,流程JSON格式具体可参见流程设计章节 dashboard-guide-json.png

下载流程JSON

点击下载流程JSON,可将设计好的流程JSON打包下载至本地 dashboard-guide-download.png 注:通常情况下,可直接在Dashboard上设计并运行流程,当然也可以把Dashboard仅当做流程设计器,通过可视化界面设计并最终将流程JSON下载至本地运行。

删除流程

点击“删除”按钮进行流程删除。

流程运行

上传Jar包

进入流程运行菜单,点击“上传Jar包”将Dashboard主Jar上传至Flink,“提交Job”前需要先做此操作,也可以自行通过Flink WebUI界面上传Jar包。 dashboard-guide-upload.png 注:点击上传,将会对Flink WebUI服务器上的Dashboard Jar进行校验,当已存在此Jar将确认是否重复上传。

提交Job

点击“提交Job”,将会上传此任务至Flink上运行 dashboard-guide-commit.png

其中,各个参数说明如下:

参数名是否必填说明
entryClassDataroad运行主类,不可修改
Parallelism并行度,此处并行度配置优先级低于流程全局配置speed中的channel配置
savepointPath让作业在指定的savepoint中恢复
allowNonRestoredState通常,恢复意味着savepoint的每一个状态都要恢复到应用中去,但如果你恰好去掉了某个operator,你可以通过设置来忽略这个状态
confProp更多Flink参数配置,采用{"参数名":"参数值"}方式配置,例如:{"parallelism.default":2}

流程调度

暂未实现