首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
EddieJ
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
10
文章 10
沸点 0
赞
10
返回
|
搜索文章
最新
热门
关于Efficient Subgraph Matching by Postponing Cartesian的批注
子图匹配:假设有两个图 和图子图 同构即从到存在这样一个函数 并且 使得 同样成立 叫做子图同构的一个映射。在这篇论文中,两个图的顶点都是带属性的,这样还需要满足. 在一个个查询点进行匹配的过程中,实时构建一个叫压缩路径索引(compact path-index,CPI)的数据…
今日头条:麻将是否可以胡牌
有一个同样的两张牌做将,然后剩下的组成ABC或者AAA的形式。假设每种有13张牌,都是1到9,共四种牌的类型
Spark 源码系列(九)Spark SQL 初体验之解析过程详解
好久没更新博客了,之前学了一些 R 语言和机器学习的内容,做了一些笔记,之后也会放到博客上面来给大家共享。一个月前就打算更新 Spark Sql 的内容了,因为一些别的事情耽误了,今天就简单写点,Spark1.2 马上就要出来了,不知道变动会不会很大,据说添加了很多的新功能呢,…
Spark 源码系列(八)Spark Streaming 实例分析
这一章要讲 Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照《Spark Streaming 编程指南》。 我们看 StreamingContext 的 socketTextStream 方法吧。 继续深入挖掘 SocketInputDStream,追述…
Spark 源码系列(七)Spark on yarn 具体实现
本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下 Spark on yarn 的实现,1.0.0 里面已经是一个 stable 的版本了,可是 1.0.1 也出来了,离 1.0.0 发布才一个月的时间,更新太快了,节奏跟不上啊,这里仍旧是讲 1.0.…
Spark 源码系列(六)Shuffle 的过程解析
Spark 大会上,所有的演讲嘉宾都认为 shuffle 是最影响性能的地方,但是又无可奈何。之前去百度面试 hadoop 的时候,也被问到了这个问题,直接回答了不知道。 Spark 的操作模型是基于 RDD 的,当调用 RDD 的 reduceByKey、groupByKey…
Spark 源码系列(五)分布式缓存
这一章想讲一下 Spark 的缓存是如何实现的。这个 persist 方法是在 RDD 里面的,所以我们直接打开 RDD 这个类。 它调用 SparkContext 去缓存这个 RDD,追杀下去。 它居然是用一个 HashMap 来存的,具体看这个 map 的类型是 TimeS…
Spark 源码系列(四)图解作业生命周期
我们先回顾一下这个图,Driver Program 是我们写的那个程序,它的核心是 SparkContext,回想一下,从 api 的使用角度,RDD 都必须通过它来获得。 下面讲一讲它所不为认知的一面,它和其它组件是如何交互的。 SparkContext 实例化之后,在内部实…
Spark 源码系列(三)作业运行过程
官方给的例子里面,一执行 collect 方法就能出结果,那我们就从 collect 开始看吧,进入 RDD,找到 collect 方法。 2、把 result 结果合并成一个 Array,注意 results 是一个 Array[Array[T]] 类型,所以第二句的那个写法…
从源码剖析一个 Spark WordCount Job 执行的全过程
WordCount 可以说是分布式数据处理框架的”Hello World”,我们可以以它为例来剖析一个 Spark Job 的执行全过程。 只有一行,很简单也很经典的代码。这里的collect作为一个 action,将触发一个 Job,现在我们从源码开始剖析这个 Job 执行的…
下一页
个人成就
文章被点赞
35
文章被阅读
21,499
掘力值
758
关注了
19
关注者
22
收藏集
2
关注标签
20
加入于
2018-10-21