Aurora_NeAr

上海哔哩哔哩科技有限公司

赞

68

|

搜索文章

大数据之路：阿里巴巴大数据实践——大数据领域建模综述

数据建模解决数据冗余、资源浪费、一致性缺失及开发低效等核心问题，通过分层设计提升性能10~100倍，优化存储与计算成本，保障数据质量并提升开发效率。相比关系数据库，数据仓库采用维度建模与列式存储，支持

9月前
239
2
评论

大数据之路：阿里巴巴大数据实践——实时技术与数据服务

实时技术通过流式架构实现数据的实时采集、处理与存储，支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联，结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口，支持SQL查询、数据

9月前
235
2
评论

大数据之路：阿里巴巴大数据实践——离线数据开发

该平台提供一站式大数据开发与治理服务，涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理，结合D2与DataWorks进行任务开发与运维，通过SQLSCAN与DQ

9月前
155
1
评论

大数据之路：阿里巴巴大数据实践——日志采集与数据同步

本资料全面介绍大数据处理技术架构，涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元

9月前
181
2
评论

Apache Iceberg数据湖高级特性及性能调优

性能调优涵盖索引优化、排序策略与元数据管理。通过布隆过滤器、位图索引等提升查询效率，结合文件内/间排序优化I/O与压缩，辅以Z-Order实现多维数据聚集。同时，合理配置元数据缓存与清单合并，加速查询

9月前
389
1
评论

Apache Iceberg数据湖基础

Apache Iceberg 是新一代数据湖表格式，旨在解决传统数据湖（如 Hive）在事务性、并发控制和元数据管理上的不足。它支持 Spark、Flink、Trino 等多种计算引擎，提供 ACID

9月前
430
1
评论

Spark SQL架构及高级用法

Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结

9月前
510
3
评论

Trino权威指南

Trino（原Presto SQL）是一款开源分布式SQL查询引擎，专为大数据联邦查询设计。它支持秒级查询PB级数据，可无缝对接Hive、MySQL、Kafka等20+异构数据源。

10月前
1.3k
2
评论

Spark RDD 及性能调优

RDD（弹性分布式数据集）是Spark的核心抽象，支持容错和并行计算。其架构包括分区、计算函数、依赖关系、分区器及优先位置等关键组件。

10月前
173
1
评论

Apache Spark详解

Apache Spark 是一个开源、分布式计算引擎，专为大规模数据处理设计。它以高速、易用和通用为核心目标。通过内存计算、DAG 执行引擎和惰性求值等特性，大幅提升数据处理效率。

10月前
309
1
评论

个人成就

文章被点赞 74

文章被阅读 12,049

加入于

2022-04-18