首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
总要回家
掘友等级
大数据开发
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
17
文章 17
沸点 0
赞
17
返回
|
搜索文章
最新
热门
面试题:为什么SparkStreaming中的local[2]括号中的数量必须是>=2?
下面通过画图详细说明步骤解释说明首先会在Hadoop01机器开启一个9999的端口号像SparkStreaming应用程序发送数据SparkStreaming接收到数据并会启动一个进程该进程包含两个线
面试题:Spark中的repartition和coalesce算子区别
随机地重新排列RDD中的数据以创建更多或更少的分区,并在整个分区之间保持平衡。这一定会在网络上产生大量Shuffle。 将RDD中的分区数减少到numPartitions。 过滤大型数据集后,对于更有效地运行操作很有用。 coalesce方法与flilter方法合并使用。如果我…
Hive中4个By的区别
当Distribute by和Sort by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序,不能指定排序规则为ASC或者DESC
Hadoop小文件问题以及优化
1、寻址时间可能会大于读取数据的时间,不划算。 进行数据访问的时候首先会寻找元数据。元数据是和block对应的,1个block对应一条元数据,假设有1000万个1kb的小文件,会存1000万块block,对应1000万个元数据。在进行数据访问的时候可能只花了1s时间寻找元数据,…
Flume跨机器采集日志,并按照时间天数切割,下发到HDFS
需求A服务器需做的事情B服务器需做的事情操作步骤1、启动B服务器上的flume此图中的红框标志B服务器启动flume成功2、启动A服务器上的flume此图中的红框标志A服务器启动flume成功查看HD
Spark中的广播变量和累加器
如果我们在分布式计算里面分发大对象,例如:字典、集合、黑白名单,这个都会由Driver端进行分发,一般来讲,如果这个变量不是广播变量,那么每个task就会分发一份,这在task数目十分多的情况下,Driver的宽带就会成为系统的瓶颈,而且会大量消耗task服务器上的资源,如果将…
MapReduce中的Combiner组件
由于map端的并行度与数据相关,数据越多maptask的并行度越高,导致所有的计算任务全部在reducetask上,直接导致reduce节点压力过大。
MapTask与ReduceTask的并行度
MapTask任务:说白了就是分而治之中的分了多少个小任务,类似于代码中map函数的调用次数,对原始数据进行任务划分,让不同的数据跑在不同的节点上。 没有实际的切分,一个是逻辑上的切分,一个是数据存储的物理划分,默认情况下切片大小和块大小一致。 job.setNumReduce…
Hadoop源码分析(三):Yarn调度器(Scheduler)
1. FIFO(先进先出调度器) 早起版本的Hadoop使用一种非常简单的方法来调度用户作业:按照作业提交的顺序,使用FIFO(先进先出)调度算法来运行作业。典型情况下,每个作业都会使用整个集群,因此作业必须等待直到轮到自己运行,虽然共享集群极有可能为多用户提供大量资源,但问题…
Yarn的组件详细介绍以及任务提交流程
1. Yarn不同版本的介绍 在Hadoop2.x版本中,MapReduce只负责计算,而Yarn专门负责程序的资源调度。 2. Yarn的组件详细介绍 3. Yarn的任务提交流程
下一页
个人成就
文章被点赞
31
文章被阅读
14,237
掘力值
472
关注了
1
关注者
6
收藏集
0
关注标签
10
加入于
2020-07-17