spark - 敬彦辉的收藏集 - 掘金

spark

更多收藏集

3篇文章 · 0订阅

Spark 调优经验总结

本文以 Spark 实践经验和 Spark 原理为依据，总结了 Spark 性能调优的一些方法。这些总结基于 Spark-1.0.0 版本。对于最近推出的 Spark-1.1.0 版本，本文介绍了几个版本增强。

云栖小二
9年前
2.4k
10
评论

Spark 计算过程分析

Spark 是一个分布式的内存计算框架，其特点是能处理大规模数据，计算速度快。Spark 延续了 Hadoop 的 MapReduce 计算模型，相比之下 Spark 的计算过程保持在内存中，减少了硬盘读写，能够将多个操作进行合并后计算，因此提升了计算速度。同时 Spark 也提供了更丰富的计算 API。

云栖小二
9年前
2.0k
29
评论

Spark Streaming中foreachRDD的陷阱

我们的项目需要从Kafka消费消息，在对消息进行处理后，再写入到ActiveMQ，以作为外部系统的数据源。基于这样的逻辑，我们就需要通过Spark Streaming读取Kafka的消息，获得的结果其实是一个RDD。DStream提供了foreachRDD(func)方法，通过…

张_逸
8年前
2.4k
5
评论