大数据

大数据

大数据

大数据

暂无订阅共16篇文章创建于2022-09-16

由来 Spark 最早源于一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster

3年前
162
点赞
评论

数据倾斜？

什么是数据倾斜？这个概念在百度百科中解释为在分布式缓存的集群中，不同节点负责处理一定范围的缓存数据。如果缓存数据分散度不够，导致大量的缓存数据集中到一台或者几台服务节点上，称为数据倾斜。一般来说数据

3年前
434
1
评论

yarn的执行流程

yarn的组成部分 hadoop是由Common、HDFS、YARN、MapReduce等核心模块组成，yarn负责解决资源调度问题，这里介绍下yarn的业务执行流程。 yarn是Master/Sla

3年前
224
1
评论

hadoop的重要组成部分

hadoop的构成 hadoop集群主要包含：HDFS集群、MapReduce、YARN集群。HDFS集群复制海量数据的存储，MapReduce负责海量计算，Yarn集群存在数据运算时的资源调度。 h

3年前
258
3
评论

hive 日期函数与条件函数

hive数仓的基本操作-数据库的创建，修改，删除，创建分区，创建分桶等方式的操作步骤，array,map,struct等类型

3年前
310
3
评论

MapReduec编程

MapReduce是将一个大的计算任务拆分成一个个小任务，让小任务在不同的计算机中进行处理，最后将任务的结果进行汇总的过程。 MR的工作流程可以分为三个阶段，分别是map、shuffle、reduce

3年前
220
3
评论

hive的内置函数

hive数仓的基本操作-数据库的创建，修改，删除，创建分区，创建分桶等方式的操作步骤，array,map,struct等类型

3年前
316
3
评论

hive 查询、分组、join

hive数仓的基本操作-数据库的创建，修改，删除，创建分区，创建分桶等方式的操作步骤，array,map,struct等类型

3年前
156
3
评论

hive 查询、分组、join

hive 修改-导入导出操作

hive数仓的基本操作-数据库的创建，修改，删除，创建分区，创建分桶等方式的操作步骤，array,map,struct等类型

3年前
165
3
评论

hive分区与分桶的区别

- 分区表：是一个或多个目录;使用`partitioned by`指定字段，指定字段为伪列，需要指定字段类型; 分区的个数可以增长; 分区表避免全表查询，根据指定字段提高了查询速度。 - 分桶表：是一

3年前
235
3
评论

hive数仓的基本操作-数据库的创建，修改，删除，创建分区，创建分桶等方式的操作步骤，array,map,struct等类型

3年前
331
3
评论

hive

`hive`是基于`hadoop`的数据仓库工具，用来进行数据的提取、转化、加载，是一种可以存储、查询和分析存储在`hadoop`中的大规模数据机制。`hive`将结构化的数据文件映射为一张数据库表，

3年前
222
3
评论

MapReduce是一种编程模型，用于大规模数据集的并行运算。是指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce(规约)函数，用来保证所有映射的键值对中的每一个

3年前
227
3
评论

HDFS读写流程

写流程简单概况：发起请求，判断权限，返回列表，建立通道，如果是写则上传block,上传完毕告诉client更新namenode的元数组，读流程则读取主机数据，在client将block合并。

3年前
166
2
评论

[Apache™ Hadoop®](https://hadoop.apache.org/) 项目为可靠、可扩展的分布式计算开发开源软件。允许简单的编程模型在大量计算机集群上对大型数据集群进行分布式处理

3年前
170
3
评论

Zookeeper是一个开源的分布式协调服务，用来给分布式应用提供一致性服务。Zookeeper本质是一个分布式的小文件存储系统。是Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

3年前
245
5
评论