首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
fengye
掘友等级
工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
赞
14
文章 14
沸点 0
赞
14
返回
|
搜索文章
文章
热门
最新
kafka读书笔记
序列号:每个PID发送到每一个分区都有对应序列号,生产者中<PID,分区>对应序列号从0递增.
《Redis开发与运维》笔记
初识Redis单线程面向快速执行场景的内纯数据库特性数据结构:string字符串(位图bitmaps,hyperloglog),hash哈希表,list列表,set集合,zset有序集合单线程模型持久
Spark Streaming原理
ReceiverSchedulingPolicy 的主要目的,是在 Spark Streaming 层面添加对 Receiver 的分发目的地的计算,ReceiverSchedulingPolicy 能计算出更好的分发策略。分发策略为round-robin循环式 现在的 Rec…
SparkCore-Broadcast-7
顾名思义,broadcast 就是将数据从一个节点发送到其他各个节点上去。这样的场景很多,比如 driver 上有一张表,其他节点上运行的 task 需要 lookup 这张表,那么 driver 可以先把这张表 copy 到这些节点,这样 task 就可以在本地查表了。如何实…
SparkCore-Architecture-5
前三章从 job 的角度介绍了用户写的 program 如何一步步地被分解和执行。这一章主要从架构的角度来讨论 master,worker,driver 和 executor 之间怎么协调来完成整个 job 的运行。 接下来分阶段讨论并细化这个图。 下图展示了driver pr…
SparkCore-CacheAndCheckpoint-6
作为区别于 Hadoop 的一个重要 feature,cache 机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。与 Hadoop MapReduce job 不同的是 Spark 的逻辑/物理执行图可能很庞大,task 中 computing ch…
SparkCore-shuffleDetails-4
上一章里讨论了 job 的物理执行图,也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的,同时也分析了 task 是怎么产生 result,以及 result 怎么被收集后计算出最终结果的。然而,我们还没有讨论数据是怎么通过 Shu…
SparkCore-JobPhysicalPlan-3
在 Overview 里我们初步介绍了 DAG 型的物理执行图,里面包含 stages 和 tasks。这一章主要解决的问题是: 一个直观想法是将前后关联的 RDDs 组成一个 stage,每个箭头生成一个 task。对于两个 RDD 聚合成一个 RDD 的情况,这三个 RDD…
SparkCore-JobLogicalPlan-2
从数据源(可以是本地 file,内存数据结构, HDFS,HBase 等)读取数据创建最初的 RDD。上一章例子中的 parallelize() 相当于 createRDD()。 对 RDD 进行一系列的 transformation() 操作,每一个 transformati…
SparkCore-Overview-1
整个集群分为 Master 节点和 Worker 节点,相当于 Hadoop 的 Master 和 Slave 节点。 Master 节点上常驻 Master 守护进程,负责管理全部的 Worker 节点。 Worker 节点上常驻 Worker 守护进程,负责与 Master…
下一页
个人成就
文章被点赞
261
文章被阅读
45,657
掘力值
1,478
关注了
9
关注者
69
收藏集
4
关注标签
30
加入于
2017-02-21