大数据 - 诺诺猫的收藏集 - 掘金

大数据

更多收藏集

11篇文章 · 0订阅

Flink 系列（一）—— Flink 核心概念综述

Apache Flink 诞生于柏林工业大学的一个研究性项目，原名 StratoSphere 。2014 年，由 StratoSphere 项目孵化出 Flink，并于同年捐赠 Apache，之后成为 Apache 的顶级项目。2019 年 1 年，阿里巴巴收购了 Flink …

zed
5年前
2.7k
6
评论

在 Yarn 的 UI 页面你可以看到什么？

前面我们说了Yarn 是一个资源调度平台，负责为运算程序提供服务器计算资源，方便我们编写的 Spark、flink、MapReduce 这些应用在它上面运行。如果还不知道它是什么的，请移步《Apache Hadoop YARN 的架构与运行流程》。那么我们有木有办法看到 Ya…

乔二爷
6年前
12k
7
评论

Spark 的核心概念 RDD

RDD(Resilient Distributed Dataset) 叫着弹性分布式数据集，是Spark 中最基本的抽象，它代表一个不可变、可分区、里面元素可以并行计算的集合。 RDD 具有数据流模型特点：自动容错、位置感知性调度和可伸缩。 RDD 允许用户在执行多个查询时…

乔二爷
7年前
6.5k
6
1

【从零单排HBase】全面认识HBase架构（建议收藏）

在网上看过很多HBaes架构相关的文章，内容深浅不一，直到发现了一篇MapR官网的文章https://mapr.com/blog/in-depth-look-hbase-architecture/#.VdMxvWSqqko，写得实在太sheng dong了。因此，以这篇文章作…

阿丸笔记
6年前
2.3k
11
评论

HDFS+ClickHouse+Spark：从0到1实现一款轻量级大数据分析系统

在产品矩阵业务中，通过仪表盘可以快速发现增长中遇到的问题。然而，如何快速洞悉问题背后的原因，是一个高频且复杂的数据分析诉求。如果数据分析师通过人工计算分析，往往会占用0.5-1天时间才能找到原因。因此，人工计算分析方式，占用人力大，且数据分析效率低。另外，产品版本迭代与业务…

腾讯云开发者
5年前
4.2k
4
评论

11张图了解HDFS的架构设计！

HDFS 是一个适合部署在廉价机器上的，具有高度容错性的，高吞吐量的分布式文件系统。运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小一般都在G字节至T字节。因此，HDFS被设计成支持大文件存储，能在一个集群里扩展到数百个节点，能够存储海量的数据。比如说，…

乔二爷
5年前
1.8k
2
5

数仓模型设计详细讲解

今天给大家分享下数仓中的模型设计，一个好的数仓项目首先看一下它的架构以及他所用到的模型，它们使用的模型也都是非常巧妙的，好了，我们话不说到直接开始。维度模型是数据仓库领域大师Ralph Kimall所倡导，他的《数据仓库工具箱》，是数据仓库工程领域最流行的数仓建模经典。维度建…

大数据老哥
5年前
1.3k
6
4

Flink + Iceberg 全场景实时数仓的建设实践

摘要：Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以 Iceberg、Hudi、Delta 为代表的解决方案应运而生，Iceberg 目前支持 Flink 通过 DataStream API /Table A…

Flink_China
5年前
1.2k
点赞
评论

大数据丨ClickHouse在京东能源管理平台的实践

ClickHouse是一款面向大数据场景下的OLAP数据库，相比于传统的基于Hadoop生态圈的OLAP大数据分析系统，ClickHouse具有极致的查询性能、轻量级的架构设计及维护简单等优势。目前社区活跃度高，业界应用实践日趋广泛。京东能源管理平台是京东科技IoT产品部面向…

京东科技开发者
5年前
1.7k
1
评论

Hive 系列（七）—— Hive 常用 DML 操作

加载的目标可以是表或分区。如果是分区表，则必须指定加载数据的分区；加载文件的格式必须与建表时使用 STORED AS 指定的存储格式相同。 Hive 0.13.0 开始，建表时可以通过使用 TBLPROPERTIES（“immutable”=“true”）来创建不可变表 (i…

zed
5年前
489
点赞
评论