大数据宝典

大数据宝典

大数据宝典

专注于大数据技术讲解，大数据面试真题解析

等 62 人订阅共76篇文章创建于2021-05-14

Flink+Kafka存在诸多限制，下一代实时存储组件来解决！

内容分为以下五个部分： Kafka 在实时分析场景遇到的问题 Fluss：Flink Unified Streaming Storage Fluss 核心特性 Fluss 未来规划 Fluss 开源

1年前
373
点赞
1

消除大数据处理的资源浪费，实现 90% 成本降低

Apache Spark 是⼀个专门为大规模数据处理设计的计算引擎，广泛应⽤于数据分析和机器学习等场景。随着 Spark 处理数据量的指数级增⻓，传统的固定资源池模式⾯临 30-50% 的资源浪费，主

1年前
224
1
评论

Spark SQL 复杂类型高阶函数详解

背景复杂类型的数据和真实数据模型相像，但是使用sql操作较为困难，一般需要借助于 explod/collect_list 等方法，或者使用 scala / python 编写UDF，但是对每个方法都

1年前
200
点赞
评论

大数据之数据治理体系全面指南

数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路，最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系？企业数据治理过程需要注意哪些问

1年前
1.7k
5
评论

通俗易懂数仓建模—Inmon范式建模与Kimball维度建模

本文开始先简单理解两种建模的核心思想，然后根据一个具体的例子，分别使用这两种建模方式进行建模，大家便会一目了然！一、两种建模思想对于 Inmon 和 Kimball 两种建模方式可以长篇大论叙述，

2年前
1.4k
2
评论

万字长文详解HBase读写性能优化

一、HBase 读优化 1. HBase客户端优化和大多数系统一样，客户端作为业务读写的入口，姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法，这里一般需要关注四个问题： 1

4年前
843
点赞
评论

Spark SQL底层执行流程详解

本文目录一、Apache Spark 二、Spark SQL发展历程三、Spark SQL底层执行原理四、Catalyst 的两大优化一、Apache Spark Apache Spark是用

4年前
833
点赞
评论

数仓建设 | ODS、DWD、DWM等理论实战（好文收藏）

本文目录：一、数据流向二、应用示例三、何为数仓DW 四、为何要分层五、数据分层六、数据集市七、问题总结导读数仓在建设过程中，对数据的组织管理上，不仅要根据业务进行纵向的主题域划分，还需

4年前
664
1
评论

数仓建设 | ODS、DWD、DWM等理论实战（好文收藏）

50000字，数仓建设保姆级教程，离线和实时一网打尽(理论+实战) 下

虽然实时计算在最近几年才火起来，但是在早期也有部分公司有实时计算的需求，但是数据量比较少，所以在实时方面形成不了完整的体系

4年前
490
3
评论

最新大厂数据湖面试题，知识点总结

本文是一篇数据湖的面试题，同时也是数据湖知识点的讲解目录：一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库

4年前
564
点赞
评论

最新大厂数据湖面试题，知识点总结

数仓建设保姆级教程，离线和实时一网打尽(理论+实战)

数仓建设保姆级教程，离线和实时一网打尽(理论+实战) 本文大纲：因内容较多，带目录的PDF查看是比较方便的：数仓建设保姆级教程PDF文档一、数仓基本概念 1. 数据仓库架构我们在谈数仓之前，为

4年前
2.5k
13
1

万字长文详解HiveSQL执行计划

本文目录：一、前言二、SQL的执行计划 explain 的用法 explain 的使用场景案例一：join 语句会过滤 null 的值吗？案例二：group by 分组语句会进行排序吗？案例

4年前
831
1
评论

万字详解数据仓库、数据湖、数据中台和湖仓一体

本文目录：一、前言二、概念解析数据仓库数据湖数据中台三、具体区别数据仓库 VS 数据湖数据仓库 VS 数据中台总结四、湖仓一体目前数据存储方案 Data Lakehouse（湖仓

4年前
749
7
2

详解大厂实时数仓建设

一、实时数仓建设背景 1. 实时需求日趋迫切目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切，需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1，调度频率以天为单位，无法支撑

4年前
2.3k
14
评论

详解数据中台的底层架构逻辑

数据中台到底是什么，几年过去了，也一直众说纷纭。笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具，而应该是一套架构、一套数据流转模式。数据中台需要采集数据作为原材料进行数据加工、数

4年前
1.6k
4
评论

Hive SQL优化思路

Hive的优化主要分为：配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。优化的核心思想是：减少数据量（例如分区、列剪裁）避免数据倾斜（例如加参数、Ke

4年前
1.4k
1
评论

最强最全面的大数据SQL经典面试题（由31位大佬共同协作完成）

本套SQL题的答案是由许多小伙伴共同贡献的，1+1的力量是远远大于2的，有不少题目都采用了非常巧妙的解法，也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样，答案更是精彩绝伦！因内容较多，带

4年前
499
点赞
评论

最强最全面的大数据SQL经典面试题（由31位大佬共同协作完成）

数仓建设保姆级教程，离线和实时一网打尽(理论+实战)

本文大纲：因内容较多，带目录的PDF查看是比较方便的：数仓建设保姆级教程PDF文档一、数仓基本概念 1. 数据仓库架构我们在谈数仓之前，为了让大家有直观的认识，先来谈数仓架构，“架构”是什么？

4年前
548
点赞
评论

数仓建设保姆级教程，离线和实时一网打尽(理论+实战)

万字详解 Spark 数据倾斜及解决方案

本文目录：一、调优概述二、数据倾斜发生时的现象三、数据倾斜发生的原理四、如何定位导致数据倾斜的代码五、某个task执行特别慢的情况六、某个task莫名其妙内存溢出的情况七、查看导致数据倾

4年前
1.6k
4
评论

数仓开发详细剖析

「这是我参与11月更文挑战的第29天，活动详情查看：2021最后一次更文挑战」。 1. 数据各层作用 ODS（原始数据层）：日志数据和业务进入数仓后，首先放入该层，建立分区表，防止后续的全表扫描，使

4年前
550
点赞
评论