告别“数据沼泽”，拥抱“活水湖”：数新智能基于CyberEngine与Apache Paimon的新一代数据湖仓架构

技术突破｜数据架构

本期我们将深度解构数新智能技术突破系列「数据架构」之数据湖。本期聚焦基于 CyberEngine 与 Apache Paimon 的新一代数据湖仓架构，解析其如何告别数据沼泽、实现实时入湖与跨存储自由，为企业构建“活水湖”提供实践参考。

在数字化转型的深水区，Hadoop上的T+1离线数仓响应越来越慢，Lambda架构的流批两套任务带来的数据不一致和运维成本更让人头疼。数据不再只是静态存储，它正在变成流动的“水”。如果说传统数据仓库是包装精美的“瓶装水”，那么数据湖就是源流汇聚的“自然水系”。今天，我们正式向大家介绍基于CyberEngine大数据平台的新一代数据湖解决方案，它为企业构建灵活、实时、统一的“活水湖”数据底座。

技术选型为什么CyberEngine选择Paimon？

在构建数据湖仓时，Hudi、Iceberg、Delta Lake等开放表格式各有优势，但最终我们坚定地选择了Apache Paimon。Paimon专为“流式数据湖”而生，它将湖格式与LSM树（日志结构合并树）技术深度结合，为数据湖带来原生流式更新能力和完整的流批一体处理能力。在CyberEngine之上，Paimon不仅是一个存储格式，更是一个具备原生流批一体能力的数据核心。

跨存储引擎自由对接HDFS、S3与MinIO

作为企业级数据底座，CyberEngine深知企业的存储环境千差万别。CyberEngine现已深度集成主流大数据组件，全面拥抱多云架构，对AWS、GCP、Azure、华为云等公有云平台均具备跨云部署与管理能力。基于这一能力，Paimon展现出极强的生态适应性：

无缝对接HDFS：延续传统Hadoop生态的高性能，适合本地机房大规模部署。

原生支持S3：轻松上云，利用云原生无限容量与低成本。

兼容MinIO：在私有云环境也能享受对象存储的高可用性。

CyberEngine屏蔽了底层差异。无论底层是HDFS、S3还是MinIO，上层Paimon表都提供一致的ACID事务保证和秒级可见性。

实际场景实时入湖与秒级可见

在实际场景中，CyberEngine利用Spark Operator和Flink Operator调度计算资源，使CDC（变更数据捕获）数据能够实时写入Paimon。以业务库中的一张订单表为例，数据发生变化后，几秒钟内便可在Paimon表中被查询到。这一低延迟得益于Paimon的LSM树结构，以及CyberEngine强大的云原生调度能力。无论是分钟级的近实时报表，还是跨多版本的历史数据回溯，数据湖都能轻松应对。

数据不应该沉睡在昂贵的封闭格式里，也不应该杂乱无章地堆砌成“数据沼泽”。在CyberEngine的加持下，基于Paimon构建的数据湖成为了一汪真正的“活水湖”，既拥有数据湖的灵活性，又具备数据仓库的高性能与事务能力。

无论使用的存储是HDFS、S3、OSS还是MinIO，现在正是解锁实时湖仓一体的最佳时机。欢迎持续关注数新智能「数据架构」系列后续文章，深入了解CyberEngine如何助力企业从“数据管理”走向“数据资产运营”。

告别“数据沼泽”，拥抱“活水湖”：数新智能基于CyberEngine与Apache Paimon的新一代数据湖仓架构

技术选型 为什么CyberEngine选择Paimon？

跨存储引擎 自由对接HDFS、S3与MinIO

实际场景 实时入湖与秒级可见

技术选型为什么CyberEngine选择Paimon？

跨存储引擎自由对接HDFS、S3与MinIO

实际场景实时入湖与秒级可见