首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
霍云
掘友等级
数据开发
|
字节跳动
无他,唯手熟尔
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
25
文章 23
沸点 2
赞
25
返回
|
搜索文章
最新
热门
Spark Streaming receiver启动
以val socket8888 = ssc.socketTextStream("localhost", 8888)为例。 ssc.socketTextStream里面会new SocketInputDStream(...),即会构造出一个接受socket数据流,InputDSt…
Spark-Task如何和Executor绑定的
简单带一下一个spark app的执行。 我们的代码通过action算子进行启动,action算子里调用了SparkContext的runJob方法。即action算子->SparkContext.runJob 特别细的步骤掠过。根据我们调起action算子的rdd,创建fin…
ThreadLocal笔记
今天被问到了ThreadLocal这块涉及到的面试题也挺多的,关于ThreadLocal是怎么一回事,什么场景该使用,百度出来的帖子太多了。我记录一下我能想到的面试点 ThreadLocal解决了什么问题。 你还了解哪些地方使用了弱引用。
Spark Shuffle Reader
MR的编程模型,在Mapper中定义了每条数据的处理逻辑。MapTask把数据写到磁盘,然后reduceTask进行拉取,在Reducer中定义了每组数据的处理逻辑,很容易理解。在Spark中全是RDD,在一个stage中,数据是通过迭代器嵌套,一条一条飞过去的,在这飞的过程中…
Spark ShuffleWriter
Spark的shuffle系统很复杂,同时我认为这也是比MR快的最重要原因。MR是早期产物,Spark必然取其精华,弃其糟粕 源码中说这种方式是序列化的形式,非常高效。看看走他的条件: 把一条数据record也就是kv写到字节数组中。这个字节数组默认1MB。 把字节数组的数据c…
Spark Shuffle
shuffle不是spark的专属产物,MR里也有。这是大数据分布式计算的逻辑,分布式计算就得这么搞。只不过spark在源码里做了很多能让分布式计算变快的操作! 这是我们作为程序员使用spark的代码。在程序跑起来的时候,首先创建了SparkContext,这里面细节就多了去了…
Spark切分stage
Spark里有很多RDD,且RDD之间有依赖关系。就像是一个单链表。 DAGScheduler这个类的源码注释非常值得一看。 我理解的计算分为不相关计算(filter,map,flatmap...)和相关计算(combineByKey,reduceByKey,groupByKe…
操作数栈和局部变量表
考察的是i++ ++i到底理不理解。我来从字节码进行分析
spark自省
理解MR过程中的排序。理解其设计目的。 Map端join,cache的设置。 编程题:找共同好友问题。 spark迭代器pipeline思想(嵌套迭代器,在MR中也有体现)。以及其中的模板方法iterator是父类RDD中的方法,里面调用子类的compute。 HadoopRD…
MapReduce-分组取TopN
MR是大数据技术中的基本功。MR源码分析的目的是清楚一个MR Job其中有哪些细节。通过一个分组取TopN的例子来串一遍所有细节,并且培养大数据计算编程手感 如下数据,求出每个月温度最高的两天。注意:数据中有垃圾数据(重复日期的数据) 这样实现起来很简单,map只用把年月弄成k…
下一页
个人成就
文章被点赞
16
文章被阅读
41,425
掘力值
1,249
关注了
21
关注者
10
收藏集
0
关注标签
9
加入于
2019-02-14