首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据宝典
五分钟学大数据
创建于2021-05-14
订阅专栏
专注于大数据技术讲解,大数据面试真题解析
等 57 人订阅
共76篇文章
创建于2021-05-14
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Flink+Kafka存在诸多限制,下一代实时存储组件来解决!
内容分为以下五个部分: Kafka 在实时分析场景遇到的问题 Fluss:Flink Unified Streaming Storage Fluss 核心特性 Fluss 未来规划 Fluss 开源
消除大数据处理的资源浪费,实现 90% 成本降低
Apache Spark 是⼀个专门为大规模数据处理设计的计算引擎,广泛应⽤于数据分析和机器学习等场景。随着 Spark 处理数据量的指数级增⻓,传统的固定资源池模式⾯临 30-50% 的资源浪费,主
Spark SQL 复杂类型高阶函数详解
背景 复杂类型的数据和真实数据模型相像,但是使用sql操作较为困难,一般需要借助于 explod/collect_list 等方法,或者使用 scala / python 编写UDF,但是对每个方法都
大数据之数据治理体系全面指南
数据治理是企业数据建设必不可少的一个环节。 好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如何构建企业数据治理体系?企业数据治理过程需要注意哪些问
通俗易懂数仓建模—Inmon范式建模与Kimball维度建模
本文开始先简单理解两种建模的核心思想,然后根据一个具体的例子,分别使用这两种建模方式进行建模,大家便会一目了然! 一、两种建模思想 对于 Inmon 和 Kimball 两种建模方式可以长篇大论叙述,
万字长文详解HBase读写性能优化
一、HBase 读优化 1. HBase客户端优化 和大多数系统一样,客户端作为业务读写的入口,姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法,这里一般需要关注四个问题: 1
Spark SQL底层执行流程详解
本文目录 一、Apache Spark 二、Spark SQL发展历程 三、Spark SQL底层执行原理 四、Catalyst 的两大优化 一、Apache Spark Apache Spark是用
数仓建设 | ODS、DWD、DWM等理论实战(好文收藏)
本文目录: 一、数据流向 二、应用示例 三、何为数仓DW 四、为何要分层 五、数据分层 六、数据集市 七、问题总结 导读 数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需
50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 下
虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求,但是数据量比较少,所以在实时方面形成不了完整的体系
最新大厂数据湖面试题,知识点总结
本文是一篇数据湖的面试题,同时也是数据湖知识点的讲解 目录: 一、什么是数据湖 二、数据湖的发展 三、数据湖有哪些优势 四、数据湖应该具备哪些能力 五、数据湖的实现遇到了哪些问题 六、数据湖与数据仓库
数仓建设保姆级教程,离线和实时一网打尽(理论+实战)
数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 本文大纲: 因内容较多,带目录的PDF查看是比较方便的: 数仓建设保姆级教程PDF文档 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为
万字长文详解HiveSQL执行计划
本文目录: 一、前言 二、SQL的执行计划 explain 的用法 explain 的使用场景 案例一:join 语句会过滤 null 的值吗? 案例二:group by 分组语句会进行排序吗? 案例
万字详解数据仓库、数据湖、数据中台和湖仓一体
本文目录: 一、前言 二、概念解析 数据仓库 数据湖 数据中台 三、具体区别 数据仓库 VS 数据湖 数据仓库 VS 数据中台 总结 四、湖仓一体 目前数据存储方案 Data Lakehouse(湖仓
详解大厂实时数仓建设
一、实时数仓建设背景 1. 实时需求日趋迫切 目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑
详解数据中台的底层架构逻辑
数据中台到底是什么,几年过去了,也一直众说纷纭。 笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。 数据中台需要采集数据作为原材料进行数据加工、数
Hive SQL优化思路
Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。 优化的核心思想是: 减少数据量(例如分区、列剪裁) 避免数据倾斜(例如加参数、Ke
最强最全面的大数据SQL经典面试题(由31位大佬共同协作完成)
本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦! 因内容较多,带
数仓建设保姆级教程,离线和实时一网打尽(理论+实战)
本文大纲: 因内容较多,带目录的PDF查看是比较方便的: 数仓建设保姆级教程PDF文档 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?
万字详解 Spark 数据倾斜及解决方案
本文目录: 一、调优概述 二、数据倾斜发生时的现象 三、数据倾斜发生的原理 四、如何定位导致数据倾斜的代码 五、某个task执行特别慢的情况 六、某个task莫名其妙内存溢出的情况 七、查看导致数据倾
数仓开发详细剖析
「这是我参与11月更文挑战的第29天,活动详情查看:2021最后一次更文挑战」。 1. 数据各层作用 ODS(原始数据层) :日志数据和业务进入数仓后,首先放入该层,建立分区表,防止后续的全表扫描,使
下一页