DataX 全系列之五 —— DataX-web 介绍和使用


  Datax 的使用过程中,我们会发现,不管是利用 java 调用以及 python 命令启动的方式,我们都无法进行任务的管理,并且每次执行任务前,我们 都需要编辑 Json 配置文件,这是比较繁琐的,随着业务的增加,配置文件 不方便管理和迁移并且每次执行都需要记录命令。 同时目前 DataX 只支持 单机版,无法调用远程的 datax,并且多节点之间的协作不能控制。

  因此,开发一款支持远程分布式调用 Datax 的可视化管理工具非常有必要,Datax-Web 就是这样的一款工具。

1.工具的安装部署

1.1. 检查 jdk1.8,python2.x 环境,Maven3.x。

  环境配置此处暂时省略

1.2. Datax的安装

  运行 datax-web 的机子上,需要安装有 Datax 工具,具体下载方式 前 面 有 介 绍 , 安 装 路 径 如 下 :

http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

  下载完开箱即用。目录:

image.png

1.3 DataX-web源码拉取调试

  本地调试使用可以选择两种方式,直接下载 Datax-web 官方提供的 tar 包,需要去网盘进行提取。这里推荐第二种从 git 上 clone 源码,在本地进行编译运行,git 地址:

github.com/WeiYe-Jing/…

项目模块结构:

image.png


2. DataX-web的具体使用流程

  1. Datax-Web 会拥有一个独立的数据库,用于用户信息,执行器,以 及任务,项目,日志的统一管理。因此第一步先要部署数据库,需要将 Datax-Web 源码文件中的 sql 文件导入数据库中。

image.png

  1. 按照本机的配置需要,更改配置,首先进入 datax-admin 模块下的 bootstrap.properties 和 application.yml 配置文件,配置数据库信息。

image.png

image.png

  1. 继续在 Datax-web 的 application.yml 配置环境下配置,注意需要 去掉一些不必要的配置(某些变量没有配置,只是为了解释,会导致启动时 报错),例如 mail 等配置,可以设置为 null。

image.png

  1. 最后进入到 datax-executor 目录下的 application,修改 datax 的 本地配置,指定 datax 的 py 启动脚本和配置文件在本地的存放路径。

image.png

  1. 配置完之后,先启动 datax-admin 服务,再启动 datax-executor服务

image.png 6. 启动成功后,用上方的 web—URL 登陆网页。 账号:admin,密码:123456

image.png 7. 登录成功后首先先编辑需要同步的两边的数据源

image.png

image.png 8. 接着开始构建一次数据同步任务

构建 Reader

image.png

构建 Writer

image.png

字段映射生成 json 配置文件

image.png

  1. 这样一个服务就构建完成啦,我们可以在任务管理处启动本次数据同步任务!

image.png

  1. 查看日志和运行结果!

image.png

image.png