Spark - 终于漫长岁月的收藏集 - 掘金

Spark

终于漫长岁月

更多收藏集

2篇文章 · 0订阅

上万字详解Spark Core（建议收藏）

Spark 产生之前，已经有MapReduce这类非常成熟的计算系统存在了，并提供了高层次的API(map/reduce)，把计算运行在集群中并提供容错能力，从而实现分布式计算。虽然MapReduce提供了对数据访问和计算的抽象，但是对于数据的复用就是简单的将中间数据写到一个…

五分钟学大数据
4年前
466
2
评论

spark_RDD持久化，检查点、缓存

1. RDD Cache缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存，默认情况下会把数据以序列化的形式缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action时，该RDD将会被缓存在计算节点的内存中，并供后面重用。实际场…

mayishijie
5年前
466
3
2