首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
总要回家
掘友等级
大数据开发
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
17
文章 17
沸点 0
赞
17
返回
|
搜索文章
赞
文章( 17 )
沸点( 0 )
Hadoop源码分析(二):剖析MapReduce工作机制
可以只用一行代码来运行一个MapReduce作业:JobClient.runJob(conf)。这个简短的代码,幕后隐藏着大量的处理细节。本章将揭示Hadoop运行作业时所采取的措施。 jobtraceker:协调作业的运行。jobtracker是一个Java应用程序,它的主类…
Hive优化实践
对于流行的分布式计算框架(如离线的MapReduce、流计算Storm、迭代内存计算Spark、流式计算Flink),“数据量大”从来都不是问题,因为理论上来说,都可以通过增加并发的节点数来解决。 但是如果数据倾斜或者分布不均匀了,那么就会是问题。此时不能简单地通过增加并发节点…
Hive SQL执行原理图解
对于Hive的使用者来说,掌握Hive DDL和DML是最基本的操作,这在实际项目中是远远不够的。在实际项目实践中,经常会碰到诸如“这个Hive SQL怎么这么久了还执行不出来?明明数据量没有多大,怎么这个Hive SQL会发费这么多时间? 为什么我的Hive SQL一直han…
Hive关键概念
Hive中的数据库从本质上来说仅仅是一个目录或者命名空间,但是对于具有很多用户和组的集群来说,这个概念非常有用。首先,这样可以避免表名冲突;其次,它等同于关系型数据库中的数据库概念,是一组表或者表的逻辑组,非常容易理解。 Hive中的表(Table)和关系型数据库中的table…
Hive的数据存储格式
Hive支持的数据格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 左边图为逻辑表,右边第一个为行式存储,第二个为列式存储。 因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,每个字段的数据类型一定是相同的,列…
面试题:Spark中的repartition和coalesce算子区别
随机地重新排列RDD中的数据以创建更多或更少的分区,并在整个分区之间保持平衡。这一定会在网络上产生大量Shuffle。 将RDD中的分区数减少到numPartitions。 过滤大型数据集后,对于更有效地运行操作很有用。 coalesce方法与flilter方法合并使用。如果我…
Hive中4个By的区别
当Distribute by和Sort by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能是升序排序,不能指定排序规则为ASC或者DESC
Hadoop小文件问题以及优化
1、寻址时间可能会大于读取数据的时间,不划算。 进行数据访问的时候首先会寻找元数据。元数据是和block对应的,1个block对应一条元数据,假设有1000万个1kb的小文件,会存1000万块block,对应1000万个元数据。在进行数据访问的时候可能只花了1s时间寻找元数据,…
Flume跨机器采集日志,并按照时间天数切割,下发到HDFS
需求A服务器需做的事情B服务器需做的事情操作步骤1、启动B服务器上的flume此图中的红框标志B服务器启动flume成功2、启动A服务器上的flume此图中的红框标志A服务器启动flume成功查看HD
下一页
个人成就
文章被点赞
31
文章被阅读
13,301
掘力值
470
关注了
1
关注者
6
收藏集
0
关注标签
10
加入于
2020-07-17