阿里云数据集成平台使用教程
ODPS数据集成方案
一、本地数据库
1.1 公网环境同步数据库中数据到ODPS
使用工具:大数据开发集成环境(Data IDE)使用方法:
- 第一步:开通数据开发服务
- 第二步:创建项目
- 第三步:新建数据源
- 第四步:创建数据同步工作流节点
- 第五步:配置同步任务
- 第六步:执行或者发布进行数据同步
1.2 非公网环境实现同步数据库中数据到ODPS
使用工具:DataX使用方法:
- 第一步:下载DataX并解压
- 第二步:根据模板和将要同步的源端和目的端配置同步json
- 第三步: 运行DataX执行同步
二、本地文件
2.1 公网环境实现同步本地文件、Hadoop中数据到ODPS
使用工具:大数据开发集成环境(Data IDE)使用方法:
- 第一步:开通数据开发服务
- 第二步:创建项目
- 第三步:新建数据源
- 第四步:创建数据同步工作流节点
- 第五步:配置同步任务
- 第六步:执行或者发布进行数据同步
2.2 非公网实现同步本地文件、Hadoop中数据到ODPS
使用工具:DataX使用方法:
- 第一步:下载DataX并解压
- 第二步:根据模板和将要同步的源端和目的端配置同步json
- 第三步: 运行DataX执行同步
2.3 实现同步日志文件中数据到ODPS
使用工具:Apache Flume ODPS插件、Fluentd ODPS插件使用方法:
- 第一步:在本地部署Flume 或者Fluentd
- 第二步:在部署的Flume 或者Fluentd中安装相应的ODPS插件
- 第三步:配置Flume 或者Fluentd源头为日志文件,目的端为ODPS的同步任务。
三、云环境数据库
3.1 实现一次性同步RDS、OSS、OTS、ADS、DRDS中数据到ODPS
使用工具:大数据开发集成环境(Data IDE)使用方法:
- 第一步:开通数据开发服务
- 第二步:创建项目
- 第三步:新建数据源(OTS不用走这个步骤,直接创建向导模式的同步任务)
- 第四步:创建数据同步工作流节点
- 第五步:配置同步任务
- 第六步:执行或者发布进行数据同步
四、云环境文件
3.1 实现一次性同步ECS日志文件中数据到ODPS
使用工具:日志服务(Log Service)、Apache Flume ODPS插件、Fluentd ODPS插件 使用方法:
- 第一步:在MaxCompute中授予MaxCompute数据投递权限
- 第二步:创建日志创建投递配置Flume和Fluentd步骤
- 第一步:在本地部署Flume 或者Fluentd
- 第二步:在部署的Flume 或者Fluentd中安装相应的ODPS插件
- 第三步:配置Flume 或者Fluentd源头为日志文件,目的端为ODPS的同步任务。
-
阿里云数据集成平台使用教程