【亲测有用】数据中台数据集成管理能力演示

118 阅读3分钟

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨杭州奥零数据科技官网:www.aolingdata.com

✨AllData开源项目:github.com/alldatacent…

✨AllData官方文档:alldata-document.readthedocs.io

✨AllData社区文档:docs.qq.com/doc/DVHlkSE…

1数据集成管理.png

AllData数据中台的数据集成管理功能,通过提供灵活的配置选项和强大的数据转换能力,使得用户能够轻松地将这些数据源集成到统一的数据平台中,实现数据的集中管理和高效利用。 AllData数据中台数据集成管理支持多种数据源,包括:

1.1 关系型数据库

  • MySQL
  • PostgreSQL
  • Oracle
  • 其他数据库

1.2 非关系型数据库

  • MongoDB
  • ElasticSearch
  • Redis
  • 其他非关系型数据库

1.3 大数据存储

  • Hadoop HDFS
  • Hive
  • Doris
  • ClickHouse
  • 其他大数据存储

1.4 云服务数据源

  • 阿里云OSS
  • 腾讯云COS
  • AWS S3

1.5 其他数据源

  • Excel文件
  • CSV文件
  • API接口

二、数据源支持Reader/Writer

文件.png

2.1 安装

dataxhttps://blog.csdn.net/hzp666/article/details/127350768

2.2 配置数据源

jdbc:mysql://localhost:3306/studio?useUnicode=true&characterEncoding=utf8

1、配置数据源.png

2.3 配置执行器

2、配置执行器.png

2.4 配置任务模版

3、配置任务模版.png

2.5 配置单任务-构建Source

按步骤选择数据抽取库,数据合并库,映射字段,构建datax的可执行json文件。

选择任务模版,点击下一步任务就创建完成了,可以在任务详情里查看。

4、配置单任务.png

2.6 构建Sink

5、构建Sink.png

2.7 字段映射

6、字段映射.png

2.8 构建同步任务Json

7、构建同步任务Json.png

2.9 选择定时调度任务模版,配置同步任务调度

8、选择定时调度任务模版,配置同步任务调度.png

2.10 查看任务列表

9、查看任务列表.png

2.11 最后可以运行的json文件

{
  "job": {
    "setting": {
      "speed": {
        "channel": 1,
        "bytes": 0
      },
      "errorLimit": {
        "record": 100
      },
      "restore": {
        "maxRowNumForCheckpoint": 0,
        "isRestore": false,
        "restoreColumnName": "",
        "restoreColumnIndex": 0
      },
      "log": {
        "isLogger": false,
        "level": "debug",
        "path": "",
        "pattern": ""
      }
    },
    "content": [
      {
        "reader": {
          "name": "mysqlreader",
          "parameter": {
            "username": "root",
            "password": "k32G0hokmB8YLhm0",
            "column": [
              "ACCOUNT_ID",
              "ACCOUNT_PARENT",
              "ACCOUNT_DESCRIPTION",
              "ACCOUNT_TYPE",
              "ACCOUNT_ROLLUP",
              "CUSTOM_MEMBERS"
            ],
            "splitPk": "",
            "connection": [
              {
                "table": [
                  "account"
                ],
                "jdbcUrl": [
                  "jdbc:mysql://8g009:33196/studio?useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertToNull&useSSL=false&serverTimezone=GMT%2B8"
                ]
              }
            ]
          }
        },
        "writer": {
          "name": "mysqlwriter",
          "parameter": {
            "username": "root",
            "password": "k32G0hokmB8YLhm0",
            "writeMode": "insert",
            "column": [
              "ACCOUNT_ID",
              "ACCOUNT_PARENT",
              "ACCOUNT_DESCRIPTION",
              "ACCOUNT_TYPE",
              "ACCOUNT_ROLLUP",
              "CUSTOM_MEMBERS"
            ],
            "connection": [
              {
                "table": [
                  "account_sink"
                ],
                "jdbcUrl": "jdbc:mysql://8g009:33196/studio?useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertToNull&useSSL=false&serverTimezone=GMT%2B8"
              }
            ]
          }
        }
      }
    ]
  }
}

三、同步结果

3.1 源表同步情况:studio.account表 26条数据

3.3 目的表同步情况:studio.account_sink表 26条数据

3.3 问题记录: 中文乱码问题,添加? useUnicode=true&characterEncoding=utf8解决。

四、注意事项

4.1 数据安全性 在配置数据源和任务时,注意保护敏感信息,如数据库密码等。建议采用加密存储和传输方式,确保数据安全。

4.2 性能优化

由业务需求和数据量大小,合理配置任务调度策略和资源分配,提高数据集成效率。

4.3 故障排查

在任务执行过程中,如遇异常或错误,及时查看日志信息并进行故障排查。 必要时,可联系AllData数据中台的技术支持团队寻求帮助。

二维码.png