〔从零搭建〕数据同步平台部署指南

114 阅读4分钟

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨杭州奥零数据科技官网:www.aolingdata.com

✨AllData开源项目:github.com/alldatacent…

✨Gitee组织:gitee.com/alldatacent…

摘要:数据同步平台基于开源项目SeaTunnel建设,它支持上百种数据源,兼容离线、实时、全量/增量同步等场景,具备高吞吐、低时延特点。内容主要为以下四部分:

一、在线演示环境

二、功能简介

三、源码编译部署安装

四、访问数据同步平台页面

💡Tips:关注「公众号」大数据商业驱动引擎

在线演示环境.jpg

🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/

请联系市场总监获取账号密码

数据同步平台功能简介.jpg

2.1 数据同步平台基于开源项目SeaTunnel建设 

数据同步平台(SeaTunnel)基于开源项目构建,是高性能、分布式数据集成框架。支持上百种数据源,兼容离线、实时、全量/增量同步等场景,具备高吞吐、低时延特点,每天可稳定高效同步数百亿数据,还支持可视化与代码开发,方便用户进行复杂数据集成任务。

🔹开源项目:github.com/apache/seat…

🔹开源项目:github.com/apache/seat…

🔹SeaTunnel文档:seatunnel.apache.org/zh-CN/docs/…

🔹参考安装SeaTunnel:blog.csdn.net/weixin_5345…
2.2 数据同步平台功能特点 

  • 高性能与发布式架构
  • 多源数据接入与兼容
  • 多种同步场景支持
  • 多引擎支持
  • 高吞吐量与低延迟
  • 可视化与代码开发支持
  • 丰富的连接器与插件化设计
  • 完善的实时监控
  • 高可用与容错机制
  • 数据血缘与质量监控
  • 安全合规

源码编译部署安装.jpg

💡部署步骤:

流程.jpg

3.1 环境准备 

🔹Java环境:

  • 安装Java 8或11,并配置JAVA_HOME环境变量。
  • 示例命令: carbon-1.png

🔹下载SeaTunne安装包:

-从SeaTunneI官网下载最新版本的安装包,例如:

carbon-2.png

🔹配置环境变量:

- 添加SEATUNNEL_HOME环境变量,例如 : carbon-3.png

3.2 获得源码 

🔹版本选择 carbon-4.png

3.3 编译构建 

🔹使用Maven编译源码:

-编译完成后,生成的二进制包位于target目录下 carbon-5.png

编译构建.png

**3.4 部署及运行配置 **

🔹配置SeaTunnel Engine

  • 编辑$SEATUNNEL_HOME/config/seatunnel.yaml文件,配置引擎参数,例如: carbon-6.png

🔹启动SeaTunnel Engine

- 启动Master和Worker服务: carbon-7.png

🔹启动SeaTunnel Web(可选)

  • 如果需要Web界面,可以启动SeaTunnel Web服务:
  • 访问Web界面:http://127.0.0.1:8801/ui/,默认用户名和密码为admin/admin

carbon-8.png

3.5 可选配置

🔹配置Master节点JVM选项

  • 编辑$SEATUNNEL_HOME/config/jvm_master_options文件,配置JVM参数,例如:

carbon-9.png

🔹配置Worker节点JVM选项

  • 编辑$SEATUNNEL_HOME/config/jvm_worker_options文件,配置JVM参数,例如:

carbon-10.png

🔹配置数据血缘与质量控制

  • SeaTunnel支持自动捕获数据血缘,生成字段级影响分析报告。可以通过配置质量平台实时扫描同步数据,监测空值率、重复率等指标。

🔹配置安全合规

  • 利用Mask Filter对敏感字段(如身份证号、手机号)进行脱敏。
  • 通过权限矩阵控制任务操作权限,例如:

carbon-11.png

🔹配置高可用与容错

  • SeaTunnel支持高可用部署(如K8s多副本),单节点故障不影响整体运行。
  • 配置数据备份策略(如Hive表每日快照),防止误删数据。

访问数据同步平台页面.jpg

4.1 功能概览-同步任务定义 

支持灵活配置数据源、目标及规则,实现离线/实时、全量/增量数据同步任务定制。 1_功能概览-同步任务定义.jpg

4.2 创建任务同步  2_创建任务同步.jpg

4.3 同步任务定义-定义 

支持用户以低代码/高定制双模式配置,可自由组合数据源与目标端、设置字段映射及转换规则,灵活适配复杂场景。 3_同步任务定义-定义.jpg

4.4 数据源 

支持关系型/非关系型数据库、文件系统、消息队列等多源接入,提供可视化分类管理与快速检索,可自定义数据源参数与连接配置。 4_数据源.jpg

4.5 选择源类型-传统数据库  5_选择源类型-传统数据库.jpg

4.6 传统数据库-创建源 

支持-键接入MySQL/0racle/SQLServer等主流库,可配置IP、端口认证信息,自定义SOL/表级抽取策略,并支持SSL加密传输。 6_传统数据库-创建源.jpg

4.7 选择源类型-文件  7_选择源类型-文件.jpg

4.8 文件  8_文件.jpg

4.9 选择源类型-非结构化  9_选择源类型-非结构化.jpg

4.10 创建源  10_创建源.jpg

4.11 选择源类型-假链接  11_选择源类型-假链接.jpg

4.12 创建源  12_创建源.jpg

4.13 虚拟表 

支持动态映射数据源,可自定义字段与逻辑,实现跨源虚拟视图构建,简化复杂数据整合。 13_虚拟表.jpg

4.14 创建虚拟表 

支持跨源数据虚拟整合,可自定义字段逻辑与关联规则,实现数据逻辑视图快速构建。 14_创建虚拟表.jpg

4.15 编辑虚拟表  15_编辑虚拟表.jpg

4.16 模型 16_模型.jpg

4.17 编辑虚拟表完成  17_编辑虚拟表完成.jpg

4.18 用户管理 

支持多层级权限分配,可精细化控制用户角色、数据源与任务操作权限,保障系统安全与协作效率。 18_用户管理.jpg

4.19 创建用户管理 

19_创建用户管理.jpg

4.20 编辑用户管理 

20_编辑用户管理.jpg

4.21 同步任务实例-离线同步  21_同步任务实例-离线同步.jpg

4.22 同步任务实例-实时同步  22_同步任务实例-实时同步.jpg