首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据宝典
五分钟学大数据
创建于2021-05-14
订阅专栏
专注于大数据技术讲解,大数据面试真题解析
等 59 人订阅
共76篇文章
创建于2021-05-14
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Spark性能调优-Shuffle调优及故障排除篇
1. ShuffleMapStage与ResultStage 在划分stage时,最后一个stage称为FinalStage,它本质上是一个ResultStage对象,前面的所有stage被称为ShuffleMapStage。 ShuffleMapStage的结束伴随着shuf…
干货 | 万字详解整个数据仓库设计体系
英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据…
上万字详解Spark Core(建议收藏)
Spark 产生之前,已经有MapReduce这类非常成熟的计算系统存在了,并提供了高层次的API(map/reduce),把计算运行在集群中并提供容错能力,从而实现分布式计算。 虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个…
美团优选大数据开发岗面试真题-附答案详细解析
1. 自我介绍 面试的时候,面试官说的第一句话就是:“介绍一下你自己吧。” 很多人真的很实诚的就只说一句:“我叫xx,来自xx,今年xx岁。”然后双方冷场。 这样的自我介绍还不如前段时间流行的一句话:“我叫xx,我喜欢唱跳、rap、篮球。”起码你还让面试官知道了你的特长。 所以…
详解 HDFS 3.x 新特性-纠删码
HDFS是一个高吞吐、高容错的分布式文件系统,但是HDFS在保证高容错的同时也带来了高昂的存储成本,比如有5T的数据存储在HDFS上,按照HDFS的默认3副本机制,将会占用15T的存储空间。那么有没有一种能达到和副本机制相同的容错能力但是能大幅度降低存储成本的机制呢,有,就是在…
Spark性能调优-RDD算子调优篇(深度好文,面试常问,建议收藏)
1. RDD复用 2. 尽早filter 获取到初始RDD后,应该考虑尽早地过滤掉不需要的数据,进而减少对内存的占用,从而提升Spark作业的运行效率。 3. 读取大量小文件-用wholeTextFiles 当我们将一个文本文件读取为 RDD 时,输入的每一行都会成为RDD的一…
Hive底层原理:explain执行计划详解
EXTENDED:加上 extended 可以输出有关计划的额外信息。这通常是物理信息,例如文件名。这些额外信息对我们用处不大 CBO:输出由Calcite优化器生成的计划。CBO 从 hive 4.0.0 版本开始支持 AST:输出查询的抽象语法树。AST 在hive 2.1…
分析 BAT 互联网巨头在大数据方向布局及大数据未来发展趋势
大数据起源于2000年左右,也就是互联网高速发展阶段。经过几年的发展,到2008年 Hadoop 成为 Apache 顶级项目,迎来了大数据体系化的快速发展期,到如今 Hadoop 已不单单指一个软件,而成为了大数据生态体系的代名词。 自2014年以来,国内大数据企业层出不穷,…
硬核!八张图搞懂 Flink 端到端精准一次处理语义 Exactly-once(深入原理,建议收藏)
Source 端:数据从上一阶段进入到 Flink 时,需要保证消息精准一次消费。 Flink 内部端:这个我们已经了解,利用 Checkpoint 机制,把状态存盘,发生故障的时候可以恢复,保证内部的状态一致性。不了解的小伙伴可以看下我之前的文章: Sink 端:将处理完的数…
Spark底层原理详细解析(深度好文,建议收藏)
Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。 Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献…
Flink可靠性的基石-checkpoint机制详细解析
checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因(如 异常退出)出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保 证应用流图状态的一致性。Flink的checkpoint机制原理来自“Chandy-Lamport a…
Kafka底层原理剖析(近万字建议收藏)
Apache Kafka 是一个分布式发布-订阅消息系统。是大数据领域消息队列中唯一的王者。最初由 linkedin 公司使用 scala 语言开发,在2010年贡献给了Apache基金会并成为顶级开源项目。至今已有十余年,仍然是大数据领域不可或缺的并且是越来越重要的一个组件。…
HBase 底层原理详解(深度好文,建议收藏)
HBase 是一个分布式的、面向列的开源数据库。建立在 HDFS 之上。Hbase的名字的来源是 Hadoop database,即 Hadoop 数据库。HBase 的计算和存储能力取决于 Hadoop 集群。 它介于 NoSql 和 RDBMS 之间,仅能通过主键(row …
九个最容易出错的 Hive sql 详解及使用注意事项
阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。 在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代…
数仓建设中最常用模型--Kimball维度建模详解
先来介绍下此书,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术。面向数仓和BI设计人员,书中涉及到的内容非常广泛,围绕一系列的商业场景或案例研究进行组织。强烈建议买一本实体书研究,反复通读全书至少三遍以上,你的技术将会有质的飞跃。…
数仓面试高频考点--解决hive小文件过多问题
每执行一次 insert 时hive中至少产生一个文件,因为 insert 导入时至少会有一个MapTask。 像有的业务需要每10分钟就要把数据同步到 hive 中,这样产生的文件就会很多。 对 hive 来说,在进行查询时,每个小文件都会当成一个块,启动一个Map任务来完成…