个人其他开源项目,欢迎Github点赞
- Dataroad:基于Flink的分布式离线/实时数据ETL工具,Github地址
- Smart Discovery:一款基于SpringCloud Discovery深度扩展的微服务治理框架,Github地址
Dataroad简介
概述
Dataroad是一款基于Flink的分布式离线/实时数据ETL工具,可实现多种异构数据源高效的数据同步。Dataroad吸收了FlinkX、DataX优秀的数据同步框架的设计思想和部分的插件功能,侧重于数据编排、处理转换、聚合计算等插件功能,提供了数据抽取、加载、过滤、转换、聚合计算、数据补全、分流合并等功能。同时Dataroad提供了Dashboard控制台,实现流程设计、编排、运行全生命周期管理,降低使用门槛。
另外,Dataroad采用SPI插件机制实现各组件,为组件的开发提供足够和扩展性和灵活度,方便开发人员自行扩展组件。
Dashboard指南
流程设计
创建流程
进入流程设计菜单,点击“新建流程”,进行流程创建,如下:
其中,新建流程可进行流程全局配置,详见流程设计章节
设计流程
新建好的流程,点击“设计流程”,进行流程设计,如下:
其中,可通过切换源码模式,查看流程设计对应存储结构。
- 双击节点进行流程环节设置
- 双击线条进行流程分支设置
查看流程JSON
点击查看流程JSON,可查看最终转换成的JSON流程定义,流程JSON格式具体可参见流程设计章节
下载流程JSON
点击下载流程JSON,可将设计好的流程JSON打包下载至本地
注:通常情况下,可直接在Dashboard上设计并运行流程,当然也可以把Dashboard仅当做流程设计器,通过可视化界面设计并最终将流程JSON下载至本地运行。
删除流程
点击“删除”按钮进行流程删除。
流程运行
上传Jar包
进入流程运行菜单,点击“上传Jar包”将Dashboard主Jar上传至Flink,“提交Job”前需要先做此操作,也可以自行通过Flink WebUI界面上传Jar包。
注:点击上传,将会对Flink WebUI服务器上的Dashboard Jar进行校验,当已存在此Jar将确认是否重复上传。
提交Job
点击“提交Job”,将会上传此任务至Flink上运行
其中,各个参数说明如下:
| 参数名 | 是否必填 | 说明 |
|---|---|---|
| entryClass | 是 | Dataroad运行主类,不可修改 |
| Parallelism | 否 | 并行度,此处并行度配置优先级低于流程全局配置speed中的channel配置 |
| savepointPath | 否 | 让作业在指定的savepoint中恢复 |
| allowNonRestoredState | 否 | 通常,恢复意味着savepoint的每一个状态都要恢复到应用中去,但如果你恰好去掉了某个operator,你可以通过设置来忽略这个状态 |
| confProp | 否 | 更多Flink参数配置,采用{"参数名":"参数值"}方式配置,例如:{"parallelism.default":2} |
流程调度
暂未实现