〔从零搭建〕实时开发平台部署指南

杭州奥零数据科技

2025-07-21 117 阅读5分钟

🔥🔥 AllData大数据产品是可定义数据中台，以数据平台为底座，以数据中台为桥梁，以机器学习平台为中层框架，以大模型应用为上游产品，提供全链路数字化解决方案。

✨杭州奥零数据科技官网：www.aolingdata.com

✨AllData开源项目：<github.com/alldatacent…

✨Gitee组织：gitee.com/alldatacent…

摘要：实时开发平台基于开源项目StreamPark建设。StreamPark 为流处理作业提供全生命周期支持，从开发到部署，集众多功能于一身，是一站式流处理平台。文章内容主要为以下五部分:

一、在线演示环境

二、功能简介

三、源码编译部署安装

四、访问实时开发平台页面

五、注意事项

💡Tips:关注「公众号」大数据商业驱动引擎

在线演示环境.jpg

🔹AllData数据中台线上正式环境：http://43.138.156.44:5173/ui_moat/

请联系市场总监获取账号密码

官网主页.jpg

实时开发平台功能简介.jpg

2.1 实时开发平台基于开源项目StreamPark建设

实时开发平台 StreamPark 提供了一系列快捷 API 和 Connector，开箱即用，作业状态自动追踪，快速完成作业的开发和管理。同时支持 Flink & Spark，无缝支持流式处理和批处理，连接互通，创造无限可能。
StreamPark 是一个流处理应用程序开发管理框架，旨在轻松构建和管理流处理应用程序，提供使用Flink 和 Spark 编写流处理应用的开发框架和一站式实时计算平台，核心能力包括不限于应用开发、部署、管理、运维、实时数仓等。
StreamPark 为流处理作业提供全生命周期支持，从开发到部署，集众多功能于一身，是一站式流处理平台。

🔹StreamPark开源项目：github.com/apache/stre…

2.2 实时开发平台功能特点：

界面化作业开发
智能编码辅助
团队协作与版本控制
动态资源分配与多集群管理
实时监控与告警
自动化容错与故障恢复
数据接入与转换
任务血缘与日志分析
扩展型与集成能力
高可用性与稳定性

源码编译部署安装.jpg

💡部署步骤：

流程.jpg

3.1 环境准备

🔹操作系统要求： 支持Linux或macOS（推荐CentOS/Ubuntu），需确保系统具备足够的资源（CPU、内存、磁盘空间）。

🔹Java环境： JDK 1.8或更高版本（StreamPark依赖Java运行时环境）。

🔹Node.js与Maven： Node.js 12.x+（用于前端构建）、Maven 3.x+（用于后端编译）。

🔹数据库： 需配置MySQL或PostgreSQL（用于存储StreamPark的元数据，如作业配置、用户信息等）。

🔹集群环境： 若需部署到生产环境，需提前配置Flink/Spark集群（如YARN或Kubernetes）。

3.2 获取源码 --版本选择：建议使用与AllData商业版兼容的StreamPark版本。

3.3 编译构建 --前端构建：进入前端目录（如streampark-console），执行以下命令：

--后端编译：使用Maven编译后端代码，跳过测试以加速构建： IDEA 编译StreamPark

生成产物：编译完成后，在streampark-distribution/target目录下生成部署包（如streampark-x.x.x-bin.tar.gz）。

后端编译.png

3.4 部署及运行配置 --解压部署包：

--配置文件修改： 数据库配置：编辑conf/application.properties，配置MySQL连接信息。

Flink/Spark集群配置：在conf/flink-conf.yaml或conf/spark-defaults.conf中配置集群地址、资源队列等。图片

--启动服务： 前端启动：通过Nginx或内置Web服务器部署前端静态资源。

后端启动：在conf/flink-conf.yaml或conf/spark-defaults.conf中配置集群地址、资源队列等。

访问Web界面：默认地址为http://:10000（端口可配置）。

3.5 可选配置

🔹告警设置： 在Web界面中配置邮件、钉钉等告警通道，用于作业异常通知。

🔹Flink版本管理： 在conf/flink-versions.yaml中添加自定义Flink版本路径，支持多版本切换。

🔹YARN队列配置： 若使用YARN，需在conf/yarn-site.xml中指定队列名称及资源限制。

🔹扩展Connector： 将自定义的Flink Connector（如Kafka、Doris等）放入plugins目录，重启服务生效。

🔹高可用部署： 在生产环境中，建议部署多个StreamPark实例，并通过Nginx负载均衡。

3.6 验证与调试

🔹作业提交： 通过Web界面提交一个简单的Flink SQL作业（如从Kafka读取数据并写入Doris），验证数据流是否畅通。

🔹日志查看： 检查logs/streampark.log及Flink/Spark的TaskManager日志，排查潜在问题。

访问实时开发平台页面.jpg

4.1 Apache Flink-作业管理

1_Apache Flink-作业管理.jpg

4.2 添加

2_添加.jpg

4.3 Flink版本

3_Flink版本.jpg

4.4 添加

4_添加.jpg

4.5 编辑

5_编辑.jpg

4.6 查看

6_查看.jpg

4.7 配置同步

7_配置同步.jpg

4.8 集群管理

8_集群管理.jpg

4.9 添加

9_添加.jpg

4.10 添加集群

10_添加集群.jpg

4.11 Apache Spark-作业管理

11_Apache Spark-作业管理.jpg

4.12 添加

12_添加.jpg

4.13 编辑

13_编辑.jpg

4.14 Apache Spark-Spark 版本

14_Apache Spark-Spark 版本.jpg

4.15 添加

15_添加.jpg

4.16 资源中心-资源上传

16_资源中心-资源上传.jpg

4.17 添加资源

17_添加资源.jpg

4.18 资源中心-项目管理

支持资源分库分类、权限隔离与版本追溯，实现多项目资源独立管控，避免跨团队协作冲突与资源误用。 18_资源中心-项目管理.jpg

4.19 添加

19_添加.jpg

4.20 资源中心-变量管理 支持全局/项目级变量配置、多环境动态替换与版本追踪，实现资源参数与代码解耦，保障跨环境部署一致性。

20_资源中心-变量管理.jpg

4.21 添加变量 21_添加变量.jpg

4.22 设置中心-环境设置 22_设置中心-环境设置.jpg

4.23 设置更新成功 23_设置更新成功.jpg

4.24 设置中心-告警设置 24_设置中心-告警设置.jpg

4.25 添加 25_添加.jpg

4.26 设置中心-扩展-添加 26_设置中心-扩展链接-添加.jpg

4.27 创建队列 27_创建队列.jpg

4.28 设置中心-Yarn队列

自支持按业务分域配置资源池，动态分配核数/内存配额，绑定优先级与用户组，保障实时作业资源强隔离。 28_设置中心-Yarn 队列.jpg

4.29 系统管理-秘钥管理-添加 29_系统管理-秘钥管理-添加.jpg

4.30 系统管理-用户管理

支持多角色权限分级、RBAC动态授权与操作审计，实现平台用户全生命周期管控，保障实时开发资源安全访问。 30_系统管理-用户管理.jpg

4.31 创建用户 31_创建用户.jpg

4.32 用户信息 32_用户信息.jpg

4.33 系统管理-角色管理 33_系统管理-角色管理.jpg

4.34 创建角色 34_创建角色.jpg

4.35 角色信息 35_角色信息.jpg

4.36 系统管理-团队管理

支持跨部门资源隔离、权限组批量分配与协作审计，实现实时开发团队与业务场景的动态映射，保障多项目资源安全协同。

36_系统管理-团队管理.jpg

4.37 创建团队

37_创建团队.jpg

4.38 系统管理-成员管理

支持跨团队账号聚合、权限动态调整与操作行为溯源，实现企业级用户资源精细化管控，保障实时开发协作安全合规。

38_系统管理-成员管理.jpg

4.39 添加成员

39_添加成员.jpg

注意事项.jpg 🔹权限管理：确保部署用户对/opt/streampark目录有读写权限。

🔹资源隔离：在共享集群中，需为StreamPark作业分配独立的资源队列，避免资源争抢。

🔹备份策略：定期备份MySQL数据库及作业配置文件，防止数据丢失。