首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
总要回家
掘友等级
大数据开发
关注
私信
获得徽章 0
动态
文章
专栏
沸点
收藏集
0
关注
赞
17
文章 17
沸点 0
资讯 0
赞
17
关注
返回
|
搜索文章
总要回家
大数据开发
·
2年前
关注
Hadoop源码分析(二):剖析MapReduce工作机制
可以只用一行代码来运行一个MapReduce作业:JobClient.runJob(conf)。这个简短的代码,幕后隐藏着大量的处理细节。本章将揭示Hadoop运行作业时所...
3
4
分享
总要回家
大数据开发
·
2年前
关注
Hadoop源码分析(一):序列化
所谓序列化(serialization),是指将结构化对象转换为字节流,以便在网络上传输或持久化到磁盘。反序列化(deserialization) 是指将字节流转回结构化对...
1
评论
分享
总要回家
大数据开发
·
2年前
关注
Hive的压缩方法
Hive的一个独特功能就是:Hive不会强制要求将数据转换成特定的格式才能使用。Hive利用Hadoop的InputFormat API来从不同的数据源读取数据,例如文本格...
赞
评论
分享
总要回家
大数据开发
·
2年前
关注
Hive优化实践
对于流行的分布式计算框架(如离线的MapReduce、流计算Storm、迭代内存计算Spark、流式计算Flink),“数据量大”从来都不是问题,因为理论上来说,都可以通过...
4
评论
分享
总要回家
大数据开发
·
2年前
关注
Hive SQL执行原理图解
对于Hive的使用者来说,掌握Hive DDL和DML是最基本的操作,这在实际项目中是远远不够的。在实际项目实践中,经常会碰到诸如“这个Hive SQL怎么这么久了还执行不...
5
评论
分享
总要回家
大数据开发
·
2年前
关注
Hive关键概念
Hive中的数据库从本质上来说仅仅是一个目录或者命名空间,但是对于具有很多用户和组的集群来说,这个概念非常有用。首先,这样可以避免表名冲突;其次,它等同于关系型数据库中的数...
2
评论
分享
总要回家
大数据开发
·
2年前
关注
Hive的数据存储格式
Hive支持的数据格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 左边图为逻辑表,右边第一个为行式存储,第二个为列式存储。 因为每个字段...
4
评论
分享
总要回家
大数据开发
·
2年前
关注
Spark中reduceByKey和groupByKey的区别
从性能上来讲:reduceByKey要优于groupByKey。 原因如下:...
赞
评论
分享
总要回家
大数据开发
·
2年前
关注
Spark的4种shuffle
SortShuffleManager的运行机制主要分成两种,一种是普通运行机制,另一种是bypass运行机制。当shuffle read task的数量小于等于spark....
赞
评论
分享
总要回家
大数据开发
·
2年前
关注
Spark静态内存模型和统一内存模型详解
内存管理接口(MemoryManger)MemoryManger类中有6个重要的方法:3个是申请内存的:acquire3个是释放内存的:release以上者3个申请内存和3...
赞
评论
分享
总要回家
大数据开发
·
2年前
关注
面试题:为什么SparkStreaming中的local[2]括号中的数量必须是>=2?
下面通过画图详细说明步骤解释说明首先会在Hadoop01机器开启一个9999的端口号像SparkStreaming应用程序发送数据SparkStreaming接收到数据并会...
赞
评论
分享
总要回家
关注了标签
Flink
大数据开发
总要回家
关注了
王知无
大数据开发
总要回家
大数据开发
·
2年前
关注
面试题:Spark中的repartition和coalesce算子区别
随机地重新排列RDD中的数据以创建更多或更少的分区,并在整个分区之间保持平衡。这一定会在网络上产生大量Shuffle。 将RDD中的分区数减少到numPartitions。...
1
评论
分享
总要回家
大数据开发
·
2年前
关注
Hive中4个By的区别
当Distribute by和Sort by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by...
1
评论
分享
总要回家
大数据开发
·
2年前
关注
Hadoop小文件问题以及优化
1、寻址时间可能会大于读取数据的时间,不划算。 进行数据访问的时候首先会寻找元数据。元数据是和block对应的,1个block对应一条元数据,假设有1000万个1kb的小文...
1
评论
分享
总要回家
大数据开发
·
2年前
关注
Flume跨机器采集日志,并按照时间天数切割,下发到HDFS
需求A服务器需做的事情B服务器需做的事情操作步骤1、启动B服务器上的flume此图中的红框标志B服务器启动flume成功2、启动A服务器上的flume此图中的红框标志A服务...
1
评论
分享
总要回家
大数据开发
·
2年前
关注
Spark中的广播变量和累加器
如果我们在分布式计算里面分发大对象,例如:字典、集合、黑白名单,这个都会由Driver端进行分发,一般来讲,如果这个变量不是广播变量,那么每个task就会分发一份,这在ta...
1
评论
分享
总要回家
大数据开发
·
2年前
关注
MapReduce中的Combiner组件
由于map端的并行度与数据相关,数据越多maptask的并行度越高,导致所有的计算任务全部在reducetask上,直接导致reduce节点压力过大。...
1
评论
分享
下一页
个人成就
文章被点赞
30
文章被阅读
7,959
掘力值
435
关注了
1
关注者
5
收藏集
0
关注标签
10
加入于
2020-07-17