spark - Coder杨公子的收藏集 - 掘金

spark

更多收藏集

4篇文章 · 0订阅

大数据资源整理

scala、spark 使用过程中，各种测试用例以及相关资料整理

jacksu
9年前
4.1k
186
1

Spark Streaming中foreachRDD的陷阱

我们的项目需要从Kafka消费消息，在对消息进行处理后，再写入到ActiveMQ，以作为外部系统的数据源。基于这样的逻辑，我们就需要通过Spark Streaming读取Kafka的消息，获得的结果其实是一个RDD。DStream提供了foreachRDD(func)方法，通过…

张_逸
8年前
2.4k
5
评论

Spark Streaming 管理 Kafka Offsets 的方式探讨

Spark Streaming 应用从Kafka中获取信息是一种常见的场景。从Kafka中读取持续不断的数据将有很多优势，例如性能好、速度快。然而，用户必须管理Kafka Offsets保证Spark Streaming应用挂掉之后仍然能够正确地读取数据。在这一篇文章，我们将来…

折叠椅
8年前
7.2k
15
1

Spark 在反作弊聚类场景的实践

目前知乎站内的 spammer 为了快速取得收效，往往倾向于大批量地产生相似的 spam 内容，或者密集地产生特定的行为。针对这种大量，相似，和相对聚集的特点，我们最近开始尝试使用聚类的方式去发现和挖掘 spammer。 anti-spam 现阶段使用到聚类的场景主要有面向内容和行为的聚类。聚类的目的在于把相似的内容和行为聚集在一起。常见的聚类方法有 k-means, 层次聚类。另外还有基于密度和图的聚类分析方案。

方石剑
9年前
1.4k
24
评论

Spark 在反作弊聚类场景的实践