首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据学习与分享
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
大数据学习与分享
3年前
关注
不可不知的资源管理调度器Hadoop Yarn
Yarn(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序如Spark、MapReduce分配资源和调度,不参与用户程序内...
赞
1
分享
大数据学习与分享
3年前
关注
Hadoop调优 | NameNode主备宕机引发的思考
大家都知道在双十一这些电商大型营销活动期间,电商网站的访问量等是平时的N倍。每当这个时候到来,无论是开发还是运维人员都严阵以待生怕服务出现问题。很不幸,笔者的一个朋友在一家...
赞
2
分享
大数据学习与分享
3年前
关注
Spark集群和任务执行
Driver:Spark框架中的驱动器,运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster Master:主节点,控制...
赞
2
分享
大数据学习与分享
3年前
关注
关于HDFS应知应会的N个问题 | 技术点
安全模式是Namenode的一种状态(Namenode主要有active/standby/safemode三种模式)。 a. Namenode发现集群中的block丢失率达...
赞
评论
分享
大数据学习与分享
3年前
关注
必须掌握的分布式文件存储系统—HDFS
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,...
赞
评论
分享
大数据学习与分享
3年前
关注
详解MapReduce(Spark和MapReduce对比铺垫篇)
本来笔者是不打算写MapReduce的,但是考虑到目前很多公司还都在用这个计算引擎,以及后续要讲的Hive原生支持的计算引擎也是MapReduce,并且为Spark和Map...
1
评论
分享
大数据学习与分享
3年前
关注
Spark为什么只有在调用action时才会触发任务执行呢(附算子优化和使用示例)?
Spark算子主要划分为两类:transformation和action,并且只有action算子触发的时候才会真正执行任务。还记得之前的文章《Spark RDD详解》中提...
赞
评论
分享
大数据学习与分享
3年前
关注
JVM内存管理和垃圾回收
无论对于Java程序员还是大数据研发人员,JVM是必须掌握的技能之一。既是面试中经常问的问题,也是在实际业务中对程序进行调优、排查类似于内存溢出、栈溢出、内存泄漏等问题的关...
3
评论
分享
大数据学习与分享
3年前
关注
解析SparkStreaming和Kafka集成的两种方式
spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,...
赞
评论
分享
大数据学习与分享
3年前
关注
linux系统层面调优和常见的面试题
linux在整个系统层面和单个进程两个层面对打开的文件句柄进行限制。 配置文件/proc/sys/fs/file-max是对整个系统层面对打开的文件句柄最大数进行控制,单个...
赞
评论
分享
大数据学习与分享
3年前
关注
Hive数据导入HBase引起数据膨胀引发的思考
在实际生产环境,通常将计算和存储进行分离,保证集群规模水平可扩展,易于提高整体的吞吐。通过单机性能优化和集群的扩容,确保业务大幅增长时,存储不能没有成为系统的瓶颈 当然,除...
赞
评论
分享
大数据学习与分享
3年前
关注
监听MySQL的binlog日志工具分析:Canal
Canal是阿里巴巴旗下的一款开源项目,利用Java开发。主要用途是基于MySQL数据库增量日志解析,提供增量数据订阅和消费,目前主要支持MySQL。 简而言之,Canal...
1
评论
分享
大数据学习与分享
3年前
关注
对Spark硬件配置的建议
在大数据领域,有一句"名言":移动数据不如移动计算。主要因为数据量是庞大的,如果将数据从一个节点移动到另外一个节点甚至从一个局域网移动到另外一个局域网,就必然会牵涉到大量的...
赞
评论
分享
大数据学习与分享
3年前
关注
聊聊Spark的分区
通过上篇文章【Spark RDD详解】,大家应该了解到Spark会通过DAG将一个Spark job中用到的所有RDD划分为不同的stage,每个stage内部都会有很多子...
赞
评论
分享
大数据学习与分享
3年前
关注
通过spark.default.parallelismSpark谈并行度
a. 本地模式:取决于本地机器的核数 b. 如果集群管理器是Mesos,则为8 c. 其他的:对比所有executor上总核数与2比较,哪个大是哪个 你会发现,如果你使用r...
赞
评论
分享
大数据学习与分享
3年前
关注
大数据调优 | Hive Join优化
jvm重用。可在hadoop的mapred-site.xml中设置jvm被重用的次数,参数mapred.job.reuse.jvm.num.tasks 4.尽量使用left...
1
评论
分享
大数据学习与分享
3年前
关注
Spark生态圈概览篇
在说Spark之前,笔者在这里向对Spark感兴趣的小伙伴们建议,想要了解、学习、使用好Spark,Spark的官网是一个很好的工具,几乎能满足你大部分需求。同时,建议学习...
2
评论
分享
大数据学习与分享
3年前
关注
newInstance和new的区别
newInstance:弱类型、低效率,调用无参构造,使用类加载机制。 而完成上面两个步骤的正是Class的静态方法forName()所完成的,这个静态方法调用了启动类加载...
赞
评论
分享
大数据学习与分享
3年前
关注
session共享的几种方案
缺点:受到cookie大小限制,因为每次请求会在头部附带cookie信息,占用一定的带宽。另外,这种方式在用户禁用cookie的情况下无效。 这种方式不常用。 比如tomc...
赞
评论
分享
大数据学习与分享
3年前
关注
监控Yarn上运行的Spark任务实例状态
可以通过要监控的任务列表,对比存活的Spark任务,不存在的可以通过短信或邮件的方式预警。获取Spark还在运行状态任务的示例代码:...
赞
评论
分享
下一页
个人成就
文章被点赞
8
文章被阅读
12,337
掘力值
450
关注了
0
关注者
12
收藏集
0
关注标签
2
加入于
2020-04-17