数据

数据相关

等 70 人订阅共377篇文章创建于2023-05-27

数据工程终极设计模式——流处理模式

引言在实践中，虽然许多系统仍然以 batch mode 运行，但越来越多的数据正在以 real time 的方式生成，并需要被及时处理和分析。无论是一笔 credit card transactio

1月前
44
点赞
评论

数据工程终极设计模式——流处理模式

数据工程终极设计模式——批处理模式

引言即使在支持连续事件流的架构中，batch processing 仍然是数据工程中的基础模式。许多核心业务功能，例如 financial reporting、regulatory reconcil

1月前
47
点赞
评论

数据工程终极设计模式——批处理模式

数据工程终极设计模式——数据工程中的存储设计模式

引言在任何数据平台中，存储架构都是一项基础性决策。数据的存储方式决定了它能够被多高效地查询、系统能够多容易地扩展、数据能够多可靠地被治理，以及当 workload 演进时，系统还能保持多强的适应性。

1月前
33
点赞
评论

数据工程终极设计模式——数据工程中的存储设计模式

数据工程终极设计模式——数据工程中的数据摄入模式

引言数据摄入是每一个现代数据平台的基础。在 analytics、reporting 或 Machine Learning（ML）系统能够产生价值之前，数据必须先以可靠且可扩展的方式被收集、传输和存储

1月前
35
点赞
评论

数据工程终极设计模式——数据工程中的数据摄入模式

数据工程终极设计模式——数据工程中的架构模式

引言在我们已经学习了数据工程基础之后，接下来将进入新的阶段：学习数据如何在各种架构框架中被摄入、处理、存储和服务。我们将更深入地探讨关键数据工程架构的优势、局限性和真实世界应用。因此，我们将首先考

1月前
49
点赞
评论

数据工程终极设计模式——数据工程中的架构模式

数据工程终极设计模式——数据工程基础

引言组织会从各种数据源接收海量数据，例如 transactional systems、social media、IoT devices 和 enterprise applications。随着数据量

1月前
37
点赞
评论

数据工程终极设计模式——数据工程基础

数据工程终极设计模式——数据工程导论

引言数据工程在帮助组织大规模做出数据驱动决策方面发挥着关键作用。随着企业越来越依赖数据来支持分析、人工智能和运营效率，构建稳健数据系统的需求变得前所未有地重要。从核心上看，数据工程关注的是设计、构

1月前
63
点赞
评论

数据工程终极设计模式——数据工程导论

构建 Apache Iceberg 湖仓架构——Apache Iceberg 的生产运营化

本章内容包括：自动化 Iceberg maintenance 使用 metadata 进行 health monitoring 执行 retention 和 compliance 跟踪 change

1月前
33
点赞
评论

构建 Apache Iceberg 湖仓架构——Apache Iceberg 的生产运营化

构建 Apache Iceberg 湖仓架构——维护 Iceberg 数据湖仓

本章内容包括：识别并解决由次优 data files 和 metadata files 导致的性能问题运行 compaction jobs，以优化 file layout 并提升 query sp

1月前
42
点赞
评论

构建 Apache Iceberg 湖仓架构——维护 Iceberg 数据湖仓

构建 Apache Iceberg 湖仓架构——理解消费层

本章内容包括：跨工具的 semantic consistency JDBC、ODBC、Arrow Flight 和 MCP 等开放接口评估 BI 工具、notebook environments

1月前
42
点赞
评论

构建 Apache Iceberg 湖仓架构——理解消费层

构建 Apache Iceberg 湖仓架构——设计联邦层

本章内容包括：评估 data federation requirements 设计 federation layer components 比较 Dremio 和 Trino 的 federated

1月前
37
点赞
评论

构建 Apache Iceberg 湖仓架构——设计联邦层

构建 Apache Iceberg 湖仓架构——实现目录层

本章内容包括：根据审计洞察定义 catalog requirements Catalog layer 在 Apache Iceberg 中的角色评估 Apache Iceberg catalog

1月前
57
点赞
评论

构建 Apache Iceberg 湖仓架构——实现目录层

构建 Apache Iceberg 湖仓架构——构建摄入层架构

本章内容包括： Ingestion performance、reliability 和 latency 需求比较 batch、micro-batch 和 streaming ingestion st

1月前
38
点赞
评论

构建 Apache Iceberg 湖仓架构——构建摄入层架构

构建 Apache Iceberg 湖仓架构——选择存储层

本章内容包括：存储性能、安全性和完整性需求 Block storage 和 object storage 架构 Parquet 和 S3 API 作为基础标准 HDFS、MinIO 和 Everpu

1月前
43
点赞
评论

构建 Apache Iceberg 湖仓架构——选择存储层

构建 Apache Iceberg 湖仓架构——为迁移到 Apache Iceberg 做准备

本章内容包括：执行基础设施审计让利益相关方参与进来，以发现技术和组织需求记录当前工具、存储系统和治理实践将审计发现转化为有优先级、可执行的需求关于 data storage、ingestio

1月前
28
点赞
评论

构建 Apache Iceberg 湖仓架构——为迁移到 Apache Iceberg 做准备

构建 Apache Iceberg 湖仓架构——Apache Iceberg 动手实践

本章内容包括：搭建 Apache Iceberg 环境在 Spark 中创建 Iceberg tables 在 Dremio 中读取 Iceberg tables 构建商业智能 dashboard

1月前
53
点赞
评论

构建 Apache Iceberg 湖仓架构——Apache Iceberg 动手实践

构建 Apache Iceberg 湖仓架构——Apache Iceberg 与数据湖仓

本章内容包括： Apache 的 Iceberg table format 是什么 Apache Iceberg 的优势基于 Apache Iceberg 的数据湖仓组件 Apache Iceber

1月前
68
1
评论

构建 Apache Iceberg 湖仓架构——Apache Iceberg 与数据湖仓

构建 Apache Iceberg 湖仓架构——数据湖仓的世界

本章内容包括：什么是数据湖仓，以及它与传统数据架构有何不同 Apache Iceberg 如何塑造湖仓范式什么时候以及为什么要实现 Apache Iceberg lakehouse 数据架构的演进

1月前
65
2
评论

构建 Apache Iceberg 湖仓架构——数据湖仓的世界

基础扎实的数据分析师——弥合数据科学训练与现实世界之间的鸿沟

本章涵盖使用一种结果驱动的流程来开展数据分析通过贴近真实场景的项目来学习重要的数据科学概念在分析数据和学习新技能时，聚焦于务实的解决方案下面这种场景，你是否觉得很熟悉？你刚刚收到了组织内某个部

3月前
62
点赞
评论

基础扎实的数据分析师——弥合数据科学训练与现实世界之间的鸿沟