〔从零搭建〕湖仓一体化平台部署指南

127 阅读3分钟

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨杭州奥零数据科技官网:www.aolingdata.com

✨AllData开源项目:github.com/alldatacent…

✨Gitee组织:gitee.com/alldatacent…

摘要:湖仓一体化平台基于开源项目Kyuubi建设。湖仓一体化平台可实时捕获并同步多源数据变化,确保数据及时性与准确性。内容主要为以下四部分:

一、在线演示环境

二、功能简介

三、源码编译部署安装

四、访问湖仓一体化平台页面

💡Tips:关注「公众号」大数据商业驱动引擎

在线演示环境.jpg

🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/

请联系市场总监获取账号密码

湖仓一体化平台功能简介.jpg

2.1 湖仓一体化平台基于开源项目Kyuubi建设 

湖仓一体化平台可实时捕获并同步多源数据变化,确保数据及时性与准确性。

其融合Flink流处理与Spark批处理能力,实现批流一体处理,降低数据处理复杂性与成本。湖仓一体化平台深度集成Hive等计算引擎,提供统一数据存储与访问接口,提升数据可用性和共享性。

🔹Kyuubi开源项目:github.com/apache/kyuu…

 2.2 湖仓一体化平台功能特点 

  • 界面化作业开发

  • 智能编码辅助

  • 团队协作与版本控制

  • 动态资源分配

  • 实时监控与告警

  • 自动化容错与故障恢复

  • 数据接入与转换

  • 任务血缘与日志分析

  • 扩展性与集成能力

  • 高可用性与稳定性

功能特点.png    (引用官网kyuubi图片)

源码编译部署安装.jpg

💡部署步骤:

流程.jpg

3.1 环境准备

🔹操作系统要求:

  • 支持Linux或macOS(推荐CentOS/Ubuntu),需确保系统具备足够的资源(CPU、内存、磁盘空间)。

🔹Java环境:

  • JDK 1.8或更高版本(Kyuubi依赖Java运行时环境)。

🔹Node.js与Maven:

  • Node.js 12.x+(用于前端构建)、Maven 3.x+(用于后端编译)。

🔹数据库:

  • 需配置MySQL或PostgreSQL(用于存储Kyuubi的元数据,如作业配置、用户信息等)。

🔹集群环境:

  • 若需部署到生产环境,需提前配置Flink/Spark集群(如YARN或Kubernetes)

环境准备.png

   (引用官网kyuubi图片)

3.2 获取源码 ——kyuubi部署(使用JDK 11)

🔹版本选择:建议使用与AllData商业版兼容的Kyuubi版本(如1.2.x或更高)。

carbon-1.png

3.3 编译构建 

🔹前端部署

  • 进入前端目录(如Kyuubi-console),执行以下命令:

carbon-2.png

🔹后端编译

  • 使用Maven编译后端代码,跳过测试以加速构建:

carbon-3.png

🔹生成产物

  • 编译完成后,在Kyuubi-distribution/target目录下生成部署包(如Kyuubi-x.x.x-bin.tar.gz)。

湖仓一体化平台功能简介.jpg

4.1 湖仓查询中心-统计概览 1_湖仓查询中心-统计概览.jpg

4.2 管理中心-会话中心 2_湖仓查询中心-管理中心-会话中心.jpg

4.3 管理中心-操作中心 3_湖仓查询中心-管理中心-操作中心.jpg

4.4 管理中心-引擎中心 4_湖仓查询中心-管理中心-引擎中心.jpg

4.5 管理中心-服务端 5_湖仓查询中心-管理中心-服务端.jpg

4.6 接口文档 6_湖仓查询中心-接口文档.jpg

4.7 查询中心  7_湖仓查询中心-查询中心.jpg

4.8 查询中心-SparkSQL 8_湖仓查询中心-查询中心-SparkSQL.jpg

4.9 查询中心-FlinkSQL  9_湖仓查询中心-查询中心-FlinkSQL.jpg

4.10 查询中心-Trino 10_湖仓查询中心-查询中心-Trino.jpg

4.11 查询中心-HiveSQL  11_湖仓查询-查询中心-HiveSQL.jpg

4.12 湖仓查询_查询中心_JDBC 12_湖仓查询_查询中心_JDBC.jpg