首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
浪法师
创建于2022-09-16
订阅专栏
大数据
暂无订阅
共16篇文章
创建于2022-09-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
KafKa 初识
由来 Spark 最早源于一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster
数据倾斜?
什么是数据倾斜? 这个概念在百度百科中解释为在分布式缓存的集群中,不同节点负责处理一定范围的缓存数据。如果缓存数据分散度不够,导致大量的缓存数据集中到一台或者几台服务节点上,称为数据倾斜。一般来说数据
yarn的执行流程
yarn的组成部分 hadoop是由Common、HDFS、YARN、MapReduce等核心模块组成,yarn负责解决资源调度问题,这里介绍下yarn的业务执行流程。 yarn是Master/Sla
hadoop的重要组成部分
hadoop的构成 hadoop集群主要包含:HDFS集群、MapReduce、YARN集群。HDFS集群复制海量数据的存储,MapReduce负责海量计算,Yarn集群存在数据运算时的资源调度。 h
hive 日期函数与条件函数
hive数仓的基本操作-数据库的创建,修改,删除,创建分区,创建分桶等方式的操作步骤,array,map,struct等类型
MapReduec编程
MapReduce是将一个大的计算任务拆分成一个个小任务,让小任务在不同的计算机中进行处理,最后将任务的结果进行汇总的过程。 MR的工作流程可以分为三个阶段,分别是map、shuffle、reduce
hive的内置函数
hive数仓的基本操作-数据库的创建,修改,删除,创建分区,创建分桶等方式的操作步骤,array,map,struct等类型
hive 查询、分组、join
hive数仓的基本操作-数据库的创建,修改,删除,创建分区,创建分桶等方式的操作步骤,array,map,struct等类型
hive 修改-导入导出操作
hive数仓的基本操作-数据库的创建,修改,删除,创建分区,创建分桶等方式的操作步骤,array,map,struct等类型
hive分区与分桶的区别
- 分区表:是一个或多个目录;使用`partitioned by`指定字段,指定字段为伪列,需要指定字段类型; 分区的个数可以增长; 分区表避免全表查询,根据指定字段提高了查询速度。 - 分桶表:是一
hive操作
hive数仓的基本操作-数据库的创建,修改,删除,创建分区,创建分桶等方式的操作步骤,array,map,struct等类型
hive
`hive`是基于`hadoop`的数据仓库工具,用来进行数据的提取、转化、加载,是一种可以存储、查询和分析存储在`hadoop`中的大规模数据机制。`hive`将结构化的数据文件映射为一张数据库表,
MapReduce
MapReduce是一种编程模型,用于大规模数据集的并行运算。是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(规约)函数,用来保证所有映射的键值对中的每一个
HDFS读写流程
写流程简单概况: 发起请求,判断权限,返回列表,建立通道,如果是写则上传block,上传完毕告诉client更新namenode的元数组,读流程则读取主机数据,在client将block合并。
hadoop
[Apache™ Hadoop®](https://hadoop.apache.org/) 项目为可靠、可扩展的分布式计算开发开源软件。允许简单的编程模型在大量计算机集群上对大型数据集群进行分布式处理
Zookeeper
Zookeeper是一个开源的分布式协调服务,用来给分布式应用提供一致性服务。Zookeeper本质是一个分布式的小文件存储系统。是Chubby一个开源的实现,是Hadoop和Hbase的重要组件。