〔从零搭建〕实时开发平台部署指南

117 阅读5分钟

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨杭州奥零数据科技官网:www.aolingdata.com

✨AllData开源项目:<github.com/alldatacent…

✨Gitee组织:gitee.com/alldatacent…

摘要:实时开发平台基于开源项目StreamPark建设。StreamPark 为流处理作业提供全生命周期支持,从开发到部署,集众多功能于一身,是一站式流处理平台。 文章内容主要为以下五部分:

一、在线演示环境

二、功能简介

三、源码编译部署安装

四、访问实时开发平台页面

五、注意事项

💡Tips:关注「公众号」大数据商业驱动引擎

在线演示环境.jpg

🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/

请联系市场总监获取账号密码

官网主页.jpg

实时开发平台功能简介.jpg

2.1 实时开发平台基于开源项目StreamPark建设  

实时开发平台 StreamPark 提供了一系列快捷 API 和 Connector,开箱即用,作业状态自动追踪,快速完成作业的开发和管理。同时支持 Flink & Spark,无缝支持流式处理和批处理,连接互通,创造无限可能。
StreamPark 是一个流处理应用程序开发管理框架,旨在轻松构建和管理流处理应用程序,提供使用Flink 和 Spark 编写流处理应用的开发框架和一站式实时计算平台,核心能力包括不限于应用开发、部署、管理、运维、实时数仓等。
StreamPark 为流处理作业提供全生命周期支持,从开发到部署,集众多功能于一身,是一站式流处理平台。 

🔹StreamPark开源项目:github.com/apache/stre…

 2.2 实时开发平台功能特点:

  • 界面化作业开发
  • 智能编码辅助
  • 团队协作与版本控制
  • 动态资源分配与多集群管理
  • 实时监控与告警
  • 自动化容错与故障恢复
  • 数据接入与转换
  • 任务血缘与日志分析
  • 扩展型与集成能力
  • 高可用性与稳定性

源码编译部署安装.jpg

💡部署步骤:

流程.jpg

3.1 环境准备

🔹操作系统要求: 支持Linux或macOS(推荐CentOS/Ubuntu),需确保系统具备足够的资源(CPU、内存、磁盘空间)。

🔹Java环境: JDK 1.8或更高版本(StreamPark依赖Java运行时环境)。

🔹Node.js与Maven: Node.js 12.x+(用于前端构建)、Maven 3.x+(用于后端编译)。

🔹数据库: 需配置MySQL或PostgreSQL(用于存储StreamPark的元数据,如作业配置、用户信息等)。

🔹集群环境: 若需部署到生产环境,需提前配置Flink/Spark集群(如YARN或Kubernetes)。

3.2 获取源码 --版本选择:建议使用与AllData商业版兼容的StreamPark版本。

carbon-1.png

3.3 编译构建 --前端构建:进入前端目录(如streampark-console),执行以下命令:

--后端编译:使用Maven编译后端代码,跳过测试以加速构建: IDEA 编译StreamPark

生成产物:编译完成后,在streampark-distribution/target目录下生成部署包(如streampark-x.x.x-bin.tar.gz)。

后端编译.png

carbon-2.png

3.4 部署及运行配置 --解压部署包:

carbon-3.png

--配置文件修改: 数据库配置: 编辑conf/application.properties,配置MySQL连接信息。

Flink/Spark集群配置: 在conf/flink-conf.yaml或conf/spark-defaults.conf中配置集群地址、资源队列等。 图片

--启动服务: 前端启动:通过Nginx或内置Web服务器部署前端静态资源。

后端启动: 在conf/flink-conf.yaml或conf/spark-defaults.conf中配置集群地址、资源队列等。

carbon-4.png 访问Web界面: 默认地址为http://:10000(端口可配置)。

3.5 可选配置

🔹告警设置: 在Web界面中配置邮件、钉钉等告警通道,用于作业异常通知。

🔹Flink版本管理: 在conf/flink-versions.yaml中添加自定义Flink版本路径,支持多版本切换。

🔹YARN队列配置: 若使用YARN,需在conf/yarn-site.xml中指定队列名称及资源限制。

🔹扩展Connector: 将自定义的Flink Connector(如Kafka、Doris等)放入plugins目录,重启服务生效。

🔹高可用部署: 在生产环境中,建议部署多个StreamPark实例,并通过Nginx负载均衡。

3.6 验证与调试

🔹作业提交: 通过Web界面提交一个简单的Flink SQL作业(如从Kafka读取数据并写入Doris),验证数据流是否畅通。

🔹日志查看: 检查logs/streampark.log及Flink/Spark的TaskManager日志,排查潜在问题。

访问实时开发平台页面.jpg

4.1 Apache Flink-作业管理

1_Apache Flink-作业管理.jpg

4.2 添加

2_添加.jpg

4.3 Flink版本

3_Flink版本.jpg

4.4 添加

4_添加.jpg

4.5 编辑

5_编辑.jpg

4.6 查看

6_查看.jpg

4.7 配置同步

7_配置同步.jpg

4.8 集群管理

8_集群管理.jpg

4.9 添加

9_添加.jpg

4.10 添加集群

10_添加集群.jpg

4.11 Apache Spark-作业管理

11_Apache Spark-作业管理.jpg

4.12 添加

12_添加.jpg

4.13 编辑

13_编辑.jpg

4.14 Apache Spark-Spark 版本

14_Apache Spark-Spark 版本.jpg

4.15 添加

15_添加.jpg

4.16 资源中心-资源上传

16_资源中心-资源上传.jpg

4.17 添加资源

17_添加资源.jpg

4.18 资源中心-项目管理

支持资源分库分类、权限隔离与版本追溯,实现多项目资源独立管控,避免跨团队协作冲突与资源误用。 18_资源中心-项目管理.jpg

4.19 添加

19_添加.jpg

4.20 资源中心-变量管理 支持全局/项目级变量配置、多环境动态替换与版本追踪,实现资源参数与代码解耦,保障跨环境部署一致性。

20_资源中心-变量管理.jpg

4.21 添加变量 21_添加变量.jpg

4.22 设置中心-环境设置 22_设置中心-环境设置.jpg

4.23 设置更新成功 23_设置更新成功.jpg

4.24 设置中心-告警设置 24_设置中心-告警设置.jpg

4.25 添加 25_添加.jpg

4.26 设置中心-扩展-添加 26_设置中心-扩展链接-添加.jpg

4.27 创建队列 27_创建队列.jpg

4.28 设置中心-Yarn队列

自支持按业务分域配置资源池,动态分配核数/内存配额,绑定优先级与用户组,保障实时作业资源强隔离。 28_设置中心-Yarn 队列.jpg

4.29 系统管理-秘钥管理-添加 29_系统管理-秘钥管理-添加.jpg

4.30 系统管理-用户管理

支持多角色权限分级、RBAC动态授权与操作审计,实现平台用户全生命周期管控,保障实时开发资源安全访问。 30_系统管理-用户管理.jpg

4.31 创建用户 31_创建用户.jpg

4.32 用户信息 32_用户信息.jpg

4.33 系统管理-角色管理 33_系统管理-角色管理.jpg

4.34 创建角色 34_创建角色.jpg

4.35 角色信息 35_角色信息.jpg

4.36 系统管理-团队管理

支持跨部门资源隔离、权限组批量分配与协作审计,实现实时开发团队与业务场景的动态映射,保障多项目资源安全协同。

36_系统管理-团队管理.jpg

4.37 创建团队

37_创建团队.jpg

4.38 系统管理-成员管理

支持跨团队账号聚合、权限动态调整与操作行为溯源,实现企业级用户资源精细化管控,保障实时开发协作安全合规。

38_系统管理-成员管理.jpg

4.39 添加成员

39_添加成员.jpg

注意事项.jpg 🔹权限管理: 确保部署用户对/opt/streampark目录有读写权限。

🔹资源隔离: 在共享集群中,需为StreamPark作业分配独立的资源队列,避免资源争抢。

🔹备份策略: 定期备份MySQL数据库及作业配置文件,防止数据丢失。