大数据宝典

大数据宝典

大数据宝典

专注于大数据技术讲解，大数据面试真题解析

等 62 人订阅共76篇文章创建于2021-05-14

Flink CDC 实时数据同步详细解析

「这是我参与11月更文挑战的第6天，活动详情查看：2021最后一次更文挑战」。 1. CDC是什么 CDC 是 Change Data Capture（变更数据获取）的简称。核心思想是，监测并捕获数据

4年前
3.4k
4
评论

大数据中必须要掌握的 Flink SQL 详细剖析

「这是我参与11月更文挑战的第5天，活动详情查看：2021最后一次更文挑战」。 Flink SQL 是 Flink 实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的

4年前
1.0k
点赞
评论

大数据中必须要掌握的 Flink SQL 详细剖析

Flink 的容错管理详细剖析

「这是我参与11月更文挑战的第4天，活动详情查看：2021最后一次更文挑战」。 1. Checkpoint 介绍 checkpoint 机制是 Flink 可靠性的基石，可以保证 Flink 集群在某

4年前
783
1
评论

基于Flink构建全场景实时数仓

「这是我参与11月更文挑战的第1天，活动详情查看：2021最后一次更文挑战」。实时数仓建设实践。虽然实时计算在最近几年才火起来，但是在早期也有部分公司有实时计算的需求

4年前
1.0k
1
评论

四万字32图，Kafka知识体系保姆级教程宝典

本文目录：一、消息队列 Apache Pulsar Pulsar 与 Kafka 对比二、Kafka基础三、Kafka架构及组件四、Kafka集群操作五、Kafka的JavaAPI操作六、

4年前
424
1
评论

四万字32图，Kafka知识体系保姆级教程宝典

Hadoop MapReduce 保姆级吐血宝典，学习与工作必读此文！

Hadoop 涉及的知识点如下图所示，本文将逐一讲解：本文档参考了关于 Hadoop 的官网及其他众多资料整理而成，为了整洁的排版及舒适的阅读，对于模糊不清晰的图片及黑白图片进行重新绘制成了高清彩图

4年前
1.5k
2
1

耗时一个月，整理出这份Hadoop吐血宝典

本文目录：一、HDFS 二、MapReduce 三、Yarn 四、Hadoop3.x 新特性五、Hadoop 大厂面试真题解析 Hadoop 涉及的知识点如下图所示，本文将逐一讲解：本文档参考了

4年前
291
点赞
评论

数仓中指标-标签，维度-度量，自然键-代理键等术语深度解析

作为一个数据人，是不是经常被各种名词围绕，是不是对其中很多概念认知模糊。有些词虽然只有一字之差，但是它们意思完全不同，今天我们就来了解下数仓建设及数据分析时常见的一些概念含义及它们之间的关系。本文结

4年前
1.4k
1
评论

Hive窗口函数保姆级教程

在SQL中有一类函数叫做聚合函数，例如sum()、avg()、max()等等，这类函数可以将多行数据按照规则聚集为一行，一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据，

4年前
1.4k
3
评论

精选Hadoop大厂高频面试题，附答案详细解析

Hadoop hadoop中常问的就三块，第一：分布式存储(HDFS)；第二：分布式计算框架(MapReduce)；第三：资源调度框架(YARN)。 1. 请说下HDFS读写流程 HDFS写流程： C

4年前
467
2
评论

Spark的两种核心Shuffle详解（建议收藏）

在 MapReduce 框架中， Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁， Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉

4年前
2.5k
7
评论

实战 | Hive 数据倾斜问题定位排查及解决

Hive 数据倾斜怎么发现，怎么定位，怎么解决多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题，这些理论很难直接应用，导致我们面对倾斜时还是不知所措

4年前
1.4k
7
1

实战 | Hive 数据倾斜问题定位排查及解决

Hive SQL语句的正确执行顺序

上面这个执行顺序到底对不对呢，我们可以通过 explain 执行计划来看下，内容过多，我们分阶段来看。首先看下 sql 语句的执行依赖：我们看到 Stage-5 是根，也就是最先执行 Stage-

4年前
1.9k
4
评论

关于数仓建设及数据治理的超全概括

在谈数仓之前，先来看下面几个问题：数仓为什么要分层？用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；不分层的话，如果源业务系统的业务规则发生变化将

4年前
1.6k
11
1

关于数仓建设及数据治理的超全概括

MPP大规模并行处理架构详解（满满干货，需细嚼慢咽）

面试官：说下你知道的MPP架构的计算引擎？这个问题不少小伙伴在面试时都遇到过，因为对MPP这个概念了解较少，不少人都卡壳了，但是我们常用的大数据计算引擎有很多都是MPP架构的，像我们熟悉的Impal

4年前
2.0k
3
评论

Hive解析Json数组超全讲解

在Hive中会有很多数据是用Json格式来存储的，如开发人员对APP上的页面进行埋点时，会将多个字段存放在一个json数组中，因此数据平台调用数据时，要对埋点数据进行解析。接下来就聊聊Hive中是如何

4年前
6.0k
6
评论

Hive千亿级数据倾斜解决方案

数据倾斜问题剖析数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显，这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个

5年前
2.9k
7
评论

Hive企业级性能优化（好文建议收藏）

Hive作为大数据平台举足轻重的框架，以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive，而不考虑性能问题，就难搭建出一个完美的数仓，所以Hi

5年前
2.7k
12
评论

一文学会 Flink CEP(以直播平台监控用户弹幕为例)

我们在看直播的时候，不管对于主播还是用户来说，非常重要的一项就是弹幕文化。为了增加直播趣味性和互动性, 各大网络直播平台纷纷采用弹窗弹幕作为用户实时交流的方式，内容丰富且形式多样的弹幕数据中隐含着复杂

5年前
2.0k
3
评论

一文学完所有的Hive Sql（两万字最全详解）

lateral view用于和split、explode等UDTF一起使用的，能将一行数据拆分成多行数据，在此基础上可以对拆分的数据进行聚合，lateral view首先为原始表的每行调用UDTF，UDTF会把一行拆分成一行或者多行，lateral view在把结果组合，产…

5年前
5.1k
28
评论