一、电脑环境:****
已有jdk1.8、maven3.8+、python3.14.0
java -version
mvn -version
Python -version(datax已经自带py)
二、数据库准备:****
(可mysql自建库)
远程原数据库、远程目标数据库
三、下载安装DataX****
【直接下载编译的包——已经停止开放】
//*
从GitHub Releases下载(推荐)
访问:github.com/alibaba/Dat…
下载 datax-202309.tar.gz 而不是源码zip
或者使用wget(如果已安装)
*//
【下载源码】
DataX在github的源码:
下载DataX压缩包
解压DataX到本地:C:\opt\module\DataX-master
打包成可编译文件:(半个小时)
cd C:\opt\module\DataX-master
mvn -U clean package assembly:assembly -Dmaven.test.skip=true
打包后启动DataX
进入编译后的目录# 查看目录结构
cd target\datax\datax Dir
#就表示编译成功
target/datax/datax/
├── bin/ # 执行脚本目录
├── conf/ # 配置文件
├── job/ # 示例任务
├── lib/ # 依赖库
├── plugin/ # 插件目录
└── log/ # 日志目录
验证是否安装成功:
cd target\datax\datax\bin
python datax.py ../job/job.json
四、数据库数据同步****
创建json脚本:
python bin/datax.py -r mysqlreader -w mysqlwriter > /path/to/my_mysql_job.json
修改配置:
文本编辑器打开json文件,根据DataX模板填写直接的reader数据库和writer数据库信息
执行实现数据同步
五、DataX-Web图形化管理DataX的工具。****
1. datax和datax-web在Windows上安装和测试_datax windows-CSDN博客
2. 安装mysql、DBaver数据库管理工具(或直接使用idea自带数据库管理插件)
3. 下载源码:github.com/WeiYe-Jing/…
4. 打开项目
(1)运行sql语句创建数据库
DataX Web 包含两个组件:
(2)DataX Executor:任务执行器(已启动,端口 8081)
在yaml文件中才成自己的配置
(3)DataX Admin:管理界面(需要启动,默认端口 8080)
在yaml文件中才成自己的配置
(4)DataX Web的使用教程:
四、正确调度Datax****
->先配置数据源
->建立项目
->DataX任务模板
->任务构建
->任务管理
->日志管理
->细节
五、可能出现的问题:
1、中文乱码:cmd-># 切换到UTF-8编码chcp 65001
reader"jdbcUrl":[
2、DataX中json文件格式细节:
reader中”jdbcUrl”:[“url”]
writer中”jdbcUrl”:“url”
配置"setting": { "speed": { "channel": 3, "byte": 1048576 }, "errorLimit": { "record": 0, "percentage": 0.02 }
中的byte可能会影响操作,要去掉。
3、如果配置文件中的路径配置正确,但是执行任务报错500,先确保项目是以管理员身份启动的。不然调动不了本地C盘中的文件。
三、Lunix系统服务器下部署DataX和DataX-Web****
1、准备环境jdk1.8、mvn3.8
2、Datax.tar、dataxWeb编译包