【重磅发布】AllData数据中台核心功能:湖仓平台中心

105 阅读4分钟

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨杭州奥零数据科技官网:www.aolingdata.com

✨AllData开源项目:github.com/alldatacent…

✨AllData官方文档:alldata-document.readthedocs.io

✨AllData社区文档:docs.qq.com/doc/DVHlkSE…

公众号首页画板-1-拷贝-30.png

「 AIIData数据中台—主页 」

主页1.png (用户需要通过浏览器访问AllData数据中台的Web界面)

「 湖仓平台中心 - 功能描述 」

1.湖仓平台中心基于开源项目Amoro建设。

2.Amoro 是基于开放数据湖格式构建的 Lakehouse 管理系统,与 Flink、Spark、Trino 等计算引擎协同,为 Lakehouse 带来可插拔、自管理的特性,提供开箱即用的数据仓库体验,帮助数据平台或产品轻松构建底层解耦、流批融合、湖原生的架构。

3. Amoro支持3种表格式

3.1 Iceberg格式:即使用Apache Iceberg原生的表格式,具有Iceberg的所有功能和特性。

3.2 Mixed-Iceberg格式:建立在Iceberg格式之上,可以加速使用LogStore的数据处理,在CDC场景下提供更高效的查询性能和流式读取能力。

3.3 Mixed-Hive格式:具有与Mixed-Iceberg表相同的功能,但兼容Hive表。支持将Hive表升级为Mixed-Hive表,升级后允许使用Hive原生的读写方式。

4.Amoro支持的引擎

4.1 Iceberg数据湖是一种用于大型分析表的高性能格式。Iceberg 为大数据带来了 SQL 表的可靠性和简单性,同时使 Spark、Trino、Flink、Presto、Hive 和 Impala 等引擎能够同时安全地使用相同的表。

4.2 Paimon数据湖是一种 Lake 格式,支持使用 Flink 和 Spark 构建实时 Lakehouse 架构,用于流式和批处理操作。创新地结合了 Lake 格式和 LSM 结构,将实时流式更新引入 Lake 架构。

4.3 Hudi数据湖是一个开放数据湖库平台,基于高性能开放表格式构建,为您的数据湖带来数据库功能。Hudi 重新构想了缓慢的老式批量数据处理,采用强大的新增量处理框架,实现低延迟的分钟级分析。

4.4 Mixed数据湖,Amoro 支持多种混合格式处理引擎,Flink/Spark/Trino/Hive

「 湖仓平台中心 - 模块功能汇总 」

模块功能汇总.png

1.Amoro的核心架构组件,包括:‌

AMS‌:提供Lakehouse管理功能,如自优化、数据过期等,并为所有计算引擎提供统一的目录服务。 ‌

优化器‌:自优化执行引擎插件支持异步执行表的合并、排序、去重、布局优化等操作。 ‌

Terminal终端‌:SQL命令行工具,支持多种实现如local模式Spark和Kyuubi。

LogStore‌:提供毫秒到秒级的SLA,用于实时数据处理消息队列,如基于Kafka和Pulsar的消息队列‌。

2.Amoro支持多种表格式,包括:‌

Iceberg格式‌:使用Apache Iceberg的原生表格式,具备所有Iceberg的功能和特性。 ‌

Mixed-Iceberg格式‌:基于Iceberg构建,利用LogStore加速数据处理,适合CDC场景。 ‌

Mixed-Hive格式‌:与Hive表格兼容,支持将Hive表格升级到Mixed-Hive表格‌3。

「 湖仓平台中心 - 功能点展示 」

湖仓总览

湖仓平台中心1、湖仓总览.jpg

湖仓探索分析-CreateTable

湖仓平台中心2、湖仓探索分析-CreateTable.jpg

湖仓探索分析-DeleteTable

湖仓平台中心2.2、湖仓探索分析-DeleteTable.jpg

湖仓探索分析-EditTable

湖仓平台中心2.3、湖仓探索分析-EditTable.jpg

湖仓探索分析-SetProperties

湖仓平台中心2.7、湖仓探索分析-ShowTables.jpg

湖仓探索分析-UnsetProperties

湖仓平台中心2.5、湖仓探索分析-UnsetProperties.jpg

湖仓探索分析-ShowDatabases

湖仓平台中心2.6、湖仓探索分析-ShowDatabases.jpg

湖仓探索分析-ShowTables

湖仓平台中心2.7、湖仓探索分析-ShowTables.jpg

湖仓探索分析-Describe

湖仓平台中心2.8、湖仓探索分析-Describe .jpg

湖仓目录管理

湖仓平台中心4、湖仓目录管理.jpg

新建内外部数据目录

湖仓平台中心5、新建内外部数据目录.jpg

湖仓数据表管理

湖仓平台中心6、湖仓数据表管理.jpg

湖仓性能优化-湖仓数据表管理

湖仓平台中心7、湖仓数据表管理.jpg

湖仓优化器

湖仓平台中心8、湖仓优化器.jpg

创建湖仓优化器-FlinkGroupPro

湖仓平台中心9.1、创建湖仓优化器-FlinkGroupProd.jpg

创建湖仓优化器-SparkGroupCenter

湖仓平台中心9.2、创建湖仓优化器-SparkGroupCenter .jpg

湖仓优化器组

湖仓平台中心10、湖仓优化器组.jpg

湖仓优化器组-添加组

湖仓平台中心11、湖仓优化器组-添加组.jpg

湖仓优化器组-编辑组

湖仓平台中心12、湖仓优化器组-编辑组.jpg

系统设置

湖仓平台中心13、系统设置.jpg

容器设置

湖仓平台中心14、容器设置.jpg

「 湖仓平台中心 - 使用注意事项 」

1.数据质量与校验

设置数据校验规则来检查数据的完整性、一致性和准确性。使用查询语句来删除重复数据、修正错误数据和填充缺失数据。

2.实时监控与日志记录

实时监控查询任务的执行状态,确保数据查询的及时性和准确性。记录查询日志,以便在出现问题时进行故障排查和性能优化。

3.持续学习与改进

随着业务需求的变化和技术的不断发展,持续学习和掌握新的查询工具和技术是非常重要的。定期评估和优化查询性能,确保数据查询的高效性和稳定性。

二维码.png