离线开发平台-HdfsFile同步Doris

40 阅读1分钟

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨杭州奥零数据科技官网:www.aolingdata.com

✨Github项目:github.com/alldatacent…

✨Gitee项目:gitee.com/alldatacent…

✨AllData官方手册:www.yuque.com/aolingdata/…

✨AllData正式环境:http://43.138.156.44:5173/ui_moat

离线开发平台基于开源项目DolphinScheduler建设

DolphinScheduler 是一个功能强大的分布式任务调度平台,支持复杂工作流编排、任务监控与告警,适用于离线数据处理场景。

  • DolphinScheduler开源项目:

github.com/apache/Dolp…

  • 文档地址:

dolphinscheduler.apache.org/zh-cn/docs/…

1. 环境准备

  • HDFS
  • Doris
  • seatunnel

1.1 SeatunneI

1.png

  • 下载完成后上传到服务器并解压

2.png

2. 数据准备

2.1 hdfs file

  • 编辑 json 文件

3.png

2.2 Doris数据库表 4.png

3. 离线开发平台页面

  • 进入离线开发平台

页面1.png

3.1 配置环境

  • 点击安全中心 - 环境管理

页面2.png

  • 编辑 SEATUNNEL_HOME,如果没有则创建
  • 将服务器 JDK 环境和 SEATUNNEL 路径配置进去

页面3.png

3.2 新建项目配置

  • 点击项目管理 - 创建项目

页面4.png

页面5.png

3.3 进入项目管理

  • 点击项目名称即可进入项目管理界面

页面6.png

3.4 创建工作流

页面7.png

  • 选择数据集成-seatunneI,拖拽到工作区中

页面8.png

  • 配置SeatunneI

页面9.png

页面10 .png

  • 脚本内容
  • 用户根据实际需求修改hdfs配置,schema对应字段,以及Doris配置信息

image.png

  • 编辑完成后点击保存

页面11.png

  • 配置基本信息点击确定

页面12.png

3.5 上线工作流

页面13.png

  • 我们手动测试,不需要配置定时任务

页面14.png

3.6 启动工作流

页面15.png

3.7 查看工作流实例

image.png

3.8 查看任务示例

  • 可以看到此时任务执行完成

页面16.png

3.9 查看Doris数据库

4.png

4. QA

4.1 HdfsFiIe配置

参考链接:seatunnel.incubator.apache.org/zh-CN/docs/…