〔从零搭建〕数据集成平台部署指南

133 阅读8分钟

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。 ✨杭州奥零数据科技官网:www.aolingdata.com ✨AllData开源项目:github.com/alldatacent… ✨Gitee组织:gitee.com/alldatacent…

摘要:数据集成平台基于开源项目Tis建设。数据集成平台(Tis)集成了FlinkX-CDC、DataX等大数据组件,提供一站式数据集成服务。文章内容主要为以下五部分:

一、在线演示环境

二、功能简介

三、数据同步能力

四、源码编译部署安装

五、访问数据集成平台页面

💡Tips:关注「公众号」大数据商业驱动引擎

在线演示环境.jpg

🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/ 请联系市场总监获取账号密码

数据集成平台功能简介.jpg

2.1 数据集成平台基于开源项目Tis建设

数据集成平台(Tis)集成了FlinkX-CDC、DataX等大数据组件,提供一站式数据集成服务。支持多种数据源,涵盖MySQL、Oracle、ElasticSearch等,兼容国产数据库,满足多源异构数据集成需求。

数据集成平台提供可视化操作界面,简化数据集成流程,降低操作难度。同时,具备实时与批量集成能力,确保数据及时准确。此外,还支持插件化扩展,用户可按需开发新插件,增强平台灵活性。助力企业高效完成数据集成任务,为数据中台建设提供有力支撑。

🔹Tis开源项目:github.com/datavane/ti… 🔹Tis文档地址:tis.pub/docs/

2.2 数据集成平台功能特点:

  • 一站式开箱即用
  • 领域抽象简化复杂度
  • 多数据源支持
  • 功能模块丰富
  • 高效数据同步能力
  • 与调度系统整合
  • 实时与批量集成
  • 可视化操作界面

数据同步能力.jpg 🔹Hive数据库数据同步能力演示(全量同步+分区同步)

🔹MySQL数据库数据同步能力演示(全量+增量同步)

🔹Oracle数据库数据同步能力演示(全量+增量同步)

🔹国产数据库达梦数据源DaMeng数据同步能力演示(全量同步)

🔹国产数据库人大金仓数据源KingBase数据同步能力演示(全量+增量同步)

3.1 支持数据库如下:

支持数据库如下.png

源码编译部署安装.jpg

💡部署步骤:

流程.webp

4.1 环境准备

🔹操作系统:推荐使用Linux发行版(如Ubuntu或CentOS),因为大多数大数据技术和分布式系统都针对Unix-like系统进行了优化。

🔹Java环境:至少JDK 11及以上版本,配置环境变量JAVA_HOME,并将$JAVA_HOME/bin添加到PATH。

🔹Maven环境:Maven 3.6.x或更高版本,配置环境变量MAVEN_HOME,并将$MAVEN_HOME/bin添加到PATH。

🔹Git:用于克隆项目代码。

🔹数据库:支持MySQL、PostgreSQL等关系型数据库,需提前创建数据库并配置好用户权限。

🔹其他依赖:根据项目需求,可能需要安装Node.js、Python等。

4.2 源码编译部署获取安装包 carbon-1.png

🔹配置数据库连接: 在项目根目录下,找到数据库配置文件(如application.properties或application.yml),根据您的环境配置数据库连接信息,例如:

carbon-1.png

🔹配置其他参数: 根据项目需求,配置其他必要的参数,如日志路径、服务器端口等。

🔹启动项目: 使用Maven启动Tis项目: carbon-5.png

🔹访问项目: 项目启动后,您可以通过浏览器访问Tis的Web界面。 通过页面访问,需启动ui_moat和ui_tis。

4.3 功能验证与使用

🔹数据源管理: 登录Tis平台后,首先进行数据源管理,添加需要集成的数据库、文件系统等数据源。

🔹任务配置: 配置数据集成任务,包括数据抽取、转换、加载等环节。

Tis支持多种数据源的Source和Sink组件,数据源支持KingBase, Hive, MongoDB, MySQL, DaMeng, Kafka, MariaDB, PostgreSQL, SqlServer, TDFS, Oracle;

数据目的支持SqlServer, Doris, Spark, StarRocks, MySQL, Aliyun-ODPS, PostgreSQL, Hive, ClickHouse, MongoDB, Kafka, Oracle, TDFS, KingBase, ElasticSearch, DaMeng, MariaDB。

1_任务配置.png

🔹任务调度与监控: 配置任务的调度策略,如定时调度、依赖调度等。通过Tis平台监控任务的执行状态和日志,确保任务正常运行。

访问数据集成平台页面.jpg

5.1 进入数据集成平台 2_进入数据集成平台.png

5.2 数据同步任务中心 3_数据同步任务中心.png

5.3 数据同步任务管理 4_数据同步任务管理.png

5.4 数据库管理中心

🔹Mysql8校验通过 5_Mysql8校验通过.png

🔹Oracle 19c校验通过 6_Oracle 19c校验通过.png

🔹Doris 2.0.7校验通过 6_Oracle 19c校验通过.png

🔹Hive2.4.2校验通过 8_Hive2.4.2校验通过.png

🔹达梦国产数据库校验通过 9_达梦国产数据库校验通过.png

🔹人大金仓国产数据库校验通过 10_人大金仓国产数据库校验通过.png

🔹支持其他数据源扩展 11_支持其他数据源扩展.png

5.5 数据同步设置 --包含业务线管理、DataX执行器、Flink Cluster、插件配置、操作日志、系统异常。

🔹业务部门管理 12_业务部门管理 .png

🔹插件配置管理 13_插件配置管理.png

🔹操作日志管理 14_操作日志管理.png

🔹操作日志详情 15_操作日志详情.png

🔹异常日志管理 16_异常日志管理.png 17_异常日志管理.png 5.6 Hive数据库同步能力演示

🔹第一步配置基本信息与插件 18_第一步配置基本信息与插件.png

🔹 Reader设置,配置Hive数据源Reader,Doris数据目的Writer 19_Reader设置.png

5.7 Hive元数据中心配置,配置HiveMetaStore

🔹 配置选择分区表(二选一) 20_配置选择分区表(二选一) .png

🔹 配置选择全量表(二选一) 21_配置选择全量表(二选一) .png

🔹 添加HiveServer2,校验通过 22_添加HiveServer2,校验通过.png

🔹 添加HDFS,校验通过 23_添加HDFS,校验通过.png

🔹 Reader选择导入表,可以多选进行整库多表批量同步,可以单表同步 24_Reader选择导入表.png

🔹批量设置表,对表的同步字段,表的主键进行筛选 25_批量设置表.png

🔹选择主键与同步字段 26_选择主键与同步字段 .png

🔹选择Doris目的表 27_选择Doris目的表.png

🔹表映射,支持自定义目的表名 28_表映射,支持自定义目的表名 .png

🔹确认同步任务信息,创建同步任务 29_确认同步任务信息.png

🔹查看自动化生成的DataX脚本 30_查看自动化生成的DataX脚本.png

🔹查看自动化生成的Table DDL脚本 31_查看自动生成的Table DDL脚本.png

🔹创建同步任务实例成功 32_创建同步任务实例成功.png

🔹查看任务主控台 33_查看任务主控台.png

🔹任务管理,可以对任务进行重新配置与修改 34_任务管理,可以对任务进行重新配置与修改.png

🔹触发构建Hive到Doris的同步任务 35_触发构建Hive到Doris的同步任务 .png

🔹Hive表同步成功 36_Hive表同步成功.png

🔹查看操作历史 37_查看操作历史.png

🔹查看Hive表,Hive表重复数据有25条,主键唯一的只有5条 38_查看Hive表.png

🔹查看同步结果Doris表,主键设置为transaction_id,同步结果保证5条,精准准确同步无误 39_查看同步结果Doris表.png

5.8 MySQL数据库同步能力演示 --同步流程与上诉类似,包含增量同步的流程,后续补充文档。

🔹创建Mysql到Doris的同步任务 40_创建Mysql到Doris的同步任务 .png

🔹同步的是Mysql多表同步到Doris 41_同步的是Mysql多表同步到Doris.png

🔹生成的同步脚本 carbon-6.png

🔹生成的Doris DDL脚本 42_生成的Doris DDL脚本.png

🔹执行结果,成功同步 43_执行结果,成功同步.png

🔹查看Mysql源表account的数据 44_查看Mysql源表account的数据.png

🔹预览Doris目的表account_sink的数据 45_预览Doris目的表account_sink的数据.png

5.9 Mysql增量同步到Doris进行配置增量同步

🔹创建增量通道 46_创建增量通道.png

🔹增加flink引擎,增量引擎配置 47_增加flink引擎,增量引擎配置.png

🔹测试Flink集群连接 48_测试Flink集群连接.png

🔹配置增量同步的Source/Sink 49_配置增量同步的Source:Sink.png

🔹自动生成同步程序,可以选SQL与DStream 50_自动生成同步程序,可以选SQL与DStream .png

🔹部署增量同步任务成功 51_部署增量同步任务成功.png

🔹进入Mysql增量同步通道 52_进入Mysql增量同步通道 .png

5.10 Mysql增量同步任务成功运行 53_Mysql增量同步任务成功运行.png

🔹查看Mysql增量同步配置 54_查看Mysql增量同步配置.png

🔹通过Flink UI查看实时CDC任务运行 55_通过Flink UI查看实时CDC任务运行.png

🔹增量同步结果 56_增量同步结果 .png

🔹Mysql测试account增加4条数据,源表 57_Mysql测试account增加4条数据,源表.png

🔹Doris检查增量同步结果,结果表--如图,成功同步了4条数据。 58_Doris检查增量同步结果,结果表 .png

5.11 Oracle数据同步能力演示 --同步流程与上述类似,包含增量同步的流程,后续补充文档

5.12 达梦国产数据库同步能力演示

🔹新增国产数据库达梦数据源 59_新增国产数据库达梦数据源.png

🔹选择国产数据库达梦数据源Reader与Doris的Writer 60_选择国产数据库达梦数据源Reader与Doris的Writer .png

🔹国产数据库达梦数据源配置Reader 61_国产数据库达梦数据源配置Reader.png

🔹新建数据源连接(可选,如果没有创建数据源,新建数据源连接) 62_新建数据源连接(可选,如果没有创建数据源,新建数据源连接).png

🔹选择国产数据库达梦的源表dameng_db.TestTable 63_选择国产数据库达梦的源表dameng_db.TestTable.png

🔹批量国产数据库达梦的源表-设置表 64_批量国产数据库达梦的源表-设置表.png

🔹选择同步数据字段 65_选择同步数据字段.png

🔹选择Doris目标表储 66_选择Doris目标表存储.png

🔹国产数据库达梦表映射到Doris 67_国产数据库达梦表映射到Doris.png

🔹自动生成表同步脚本 68_自动生成表同步脚本.png

🔹创建国产数据库达梦同步到Doris的任务 69_创建国产数据库达梦同步到Doris的任务.png

🔹查看国产数据库达梦同步到Doris任务详情 70_查看国产数据库达梦同步到Doris任务详情 .png

🔹触发国产数据库达梦同步到Doris任务 71_触发国产数据库达梦同步到Doris任务 .png

🔹查看国产数据库达梦TestTable表数据,1000条 72_查看国产数据库达梦TestTable表数据.png

🔹同步国产数据库DaMeng成功创建Doris表 73_同步国产数据库DaMeng成功创建Doris表.png

🔹成功同步1000条数据,验证通过 74_成功同步1000条数据,验证通过.png

🔹查看同步结果,查看Doris test表数据,1000条验证通过 75_查看同步结果,查看Doris test表数据,1000条验证通过.png

5.13 人大金仓国产数据库同步能力演示 --同步流程与上诉类似,包含增量同步的流程,后续补充文档

🔹新增国产数据库人大金仓KingBase数据源 76_新增国产数据库人大金仓KingBase数据源.png

🔹选择国产数据库人大金仓KingBase Reader与Doris的Writer

77_选择国产数据库人大金仓KingBase Reader与Doris的Writer.png

🔹配置国产数据库人大金仓KingBase Reader 78_配置国产数据库人大金仓KingBase Reader.png

🔹新建数据源连接(可选,如果没有创建数据源,新建数据源连接) 79_新建数据源连接(可选,如果没有创建数据源,新建数据源连接).png

🔹选择国产数据库人大金仓KingBase的源表test 80_选择国产数据库人大金仓KingBase的源表test.png

🔹批量国产数据库人大金仓KingBase的源表-设置表 81_批量国产数据库人大金仓KingBase的源表-设置表.png

🔹选择同步国产数据库人大金仓KingBase-数据字段 82_选择同步国产数据库人大金仓KingBase-数据字段.png

🔹选择Doris目标表存储 83_选择Doris目标表存储.png

🔹国产数据库人大金仓KingBase映射到Doris 84_国产数据库人大金仓KingBase映射到Doris.png

🔹自动生成表同步脚本 85_自动生成表同步脚本.png

🔹创建国产数据库人大金仓KingBase同步到Doris的任务 86_创建国产数据库人大金仓KingBase同步到Doris的任务.png

🔹查看国产数据库人大金仓KingBase同步到Doris任务详情 87_查看国产数据库人大金仓KingBase同步到Doris任务详情.png

🔹触发国产数据库人大金仓KingBase同步到Doris任务 88_触发国产数据库人大金仓KingBase同步到Doris任务.png

🔹查看国产数据库人大金仓KingBase源表test数据,合计17条数据 89_查看国产数据库人大金仓KingBase源表test数据,合计17条数据.png

🔹查看同步到Doris目的表的数据,同步通过,17条数据验证成功 90_查看同步到Doris目的表的数据,同步通过,17条数据验证成功.png

5.14 国产数据库人大金仓KingBase增量同步到Doris能力演示

🔹国产数据库人大金仓实时同步到Doris任务 91_国产数据库人大金仓实时同步到Doris任务.png

🔹配置国产数据库人大金仓的增量引擎 92_配置国产数据库人大金仓的增量引擎.png

🔹配置国产数据库人大金仓的SourceFactory与增量同步Factory 93_配置国产数据库人大金仓的SourceFactory与增量同步Factory .png

🔹自动生成国产数据库人大金仓的实时任务代码 94_自动生成国产数据库人大金仓的实时任务代码.png

🔹部署国产数据库人大金仓的实时增量同步任务,部署成功 95_部署国产数据库人大金仓的实时增量同步任务,部署成功.png 🔹国产数据库人大金仓的实时增量同步任务运行成功 96_国产数据库人大金仓的实时增量同步任务运行成功.png

🔹国产数据库人大金仓KingBase表test数据为17条,测试增加7条数据,源数据增加到24条 97_国产数据库人大金仓KingBase表test数据为17条,测试增加7条数据,源数据增加到24条。.png

🔹实时同步结果验证,Doris结果表test数据由17条增加到24条,验证通过 98_实时同步结果验证,Doris结果表test数据由17条增加到24条,验证通过.png