首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据宝典
五分钟学大数据
创建于2021-05-14
订阅专栏
专注于大数据技术讲解,大数据面试真题解析
等 39 人订阅
共71篇文章
创建于2021-05-14
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
五分钟学大数据
1年前
大数据
万字长文详解HBase读写性能优化
一、HBase 读优化 1. HBase客户端优化 和大多数系统一样,客户端作为业务读写的入口,姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法,这里一般需要关注四个问题: 1
119
点赞
评论
五分钟学大数据
1年前
大数据
Spark SQL底层执行流程详解
本文目录 一、Apache Spark 二、Spark SQL发展历程 三、Spark SQL底层执行原理 四、Catalyst 的两大优化 一、Apache Spark Apache Spark是用
181
点赞
评论
五分钟学大数据
1年前
大数据
数仓建设 | ODS、DWD、DWM等理论实战(好文收藏)
本文目录: 一、数据流向 二、应用示例 三、何为数仓DW 四、为何要分层 五、数据分层 六、数据集市 七、问题总结 导读 数仓在建设过程中,对数据的组织管理上,不仅要根据业务进行纵向的主题域划分,还需
155
点赞
评论
五分钟学大数据
1年前
大数据
50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 下
虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求,但是数据量比较少,所以在实时方面形成不了完整的体系
113
3
评论
五分钟学大数据
1年前
大数据
最新大厂数据湖面试题,知识点总结
本文是一篇数据湖的面试题,同时也是数据湖知识点的讲解 目录: 一、什么是数据湖 二、数据湖的发展 三、数据湖有哪些优势 四、数据湖应该具备哪些能力 五、数据湖的实现遇到了哪些问题 六、数据湖与数据仓库
125
点赞
评论
五分钟学大数据
1年前
大数据
数仓建设保姆级教程,离线和实时一网打尽(理论+实战)
数仓建设保姆级教程,离线和实时一网打尽(理论+实战) 本文大纲: 因内容较多,带目录的PDF查看是比较方便的: 数仓建设保姆级教程PDF文档 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为
778
10
评论
五分钟学大数据
1年前
大数据
后端
万字长文详解HiveSQL执行计划
本文目录: 一、前言 二、SQL的执行计划 explain 的用法 explain 的使用场景 案例一:join 语句会过滤 null 的值吗? 案例二:group by 分组语句会进行排序吗? 案例
233
1
评论
五分钟学大数据
1年前
大数据
万字详解数据仓库、数据湖、数据中台和湖仓一体
本文目录: 一、前言 二、概念解析 数据仓库 数据湖 数据中台 三、具体区别 数据仓库 VS 数据湖 数据仓库 VS 数据中台 总结 四、湖仓一体 目前数据存储方案 Data Lakehouse(湖仓
135
点赞
评论
五分钟学大数据
1年前
大数据
详解大厂实时数仓建设
一、实时数仓建设背景 1. 实时需求日趋迫切 目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑
1246
14
评论
五分钟学大数据
1年前
大数据
详解数据中台的底层架构逻辑
数据中台到底是什么,几年过去了,也一直众说纷纭。 笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。 数据中台需要采集数据作为原材料进行数据加工、数
721
3
评论
五分钟学大数据
1年前
大数据
Apache Hive
后端
Hive SQL优化思路
Hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。 优化的核心思想是: 减少数据量(例如分区、列剪裁) 避免数据倾斜(例如加参数、Ke
465
1
评论
五分钟学大数据
1年前
SQL
最强最全面的大数据SQL经典面试题(由31位大佬共同协作完成)
本套SQL题的答案是由许多小伙伴共同贡献的,1+1的力量是远远大于2的,有不少题目都采用了非常巧妙的解法,也有不少题目有多种解法。本套大数据SQL题不仅题目丰富多样,答案更是精彩绝伦! 因内容较多,带
157
点赞
评论
五分钟学大数据
1年前
大数据
数仓建设保姆级教程,离线和实时一网打尽(理论+实战)
本文大纲: 因内容较多,带目录的PDF查看是比较方便的: 数仓建设保姆级教程PDF文档 一、数仓基本概念 1. 数据仓库架构 我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?
125
点赞
评论
五分钟学大数据
1年前
大数据
Spark
万字详解 Spark 数据倾斜及解决方案
本文目录: 一、调优概述 二、数据倾斜发生时的现象 三、数据倾斜发生的原理 四、如何定位导致数据倾斜的代码 五、某个task执行特别慢的情况 六、某个task莫名其妙内存溢出的情况 七、查看导致数据倾
601
2
评论
五分钟学大数据
1年前
大数据
数仓开发详细剖析
「这是我参与11月更文挑战的第29天,活动详情查看:2021最后一次更文挑战」。 1. 数据各层作用 ODS(原始数据层) :日志数据和业务进入数仓后,首先放入该层,建立分区表,防止后续的全表扫描,使
192
点赞
评论
五分钟学大数据
1年前
大数据
Hadoop
Hadoop企业级生产调优手册(二)
「这是我参与11月更文挑战的第27天,活动详情查看:2021最后一次更文挑战」。 上节:Hadoop企业级生产调优手册(一) 五、HDFS存储优化 注:演示纠删码和异构存储需要一共 5 台虚拟机。尽量
389
2
评论
五分钟学大数据
1年前
大数据
Hadoop
Hadoop企业级生产调优手册(一)
「这是我参与11月更文挑战的第26天,活动详情查看:2021最后一次更文挑战」。 一、HDFS核心参数 1.1 NameNode内存生产配置 1. NameNode 内存计算 每个文件块大概占用 15
413
1
评论
五分钟学大数据
1年前
大数据
ETL工具算法构建企业级数据仓库五步法
「这是我参与11月更文挑战的第25天,活动详情查看:2021最后一次更文挑战」。 01 什么是ETL? ETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是
88
点赞
评论
五分钟学大数据
1年前
大数据
Flink
基于 Flink 搭建实时平台
「这是我参与11月更文挑战的第24天,活动详情查看:2021最后一次更文挑战」。 一、前言 在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量
615
1
评论
下一页
温馨提示
当前操作失败,如有疑问,可点击申诉