首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark
订阅
Coder杨公子
更多收藏集
微信扫码分享
微信
新浪微博
QQ
4篇文章 · 0订阅
大数据资源整理
scala、spark 使用过程中,各种测试用例以及相关资料整理
Spark Streaming中foreachRDD的陷阱
我们的项目需要从Kafka消费消息,在对消息进行处理后,再写入到ActiveMQ,以作为外部系统的数据源。基于这样的逻辑,我们就需要通过Spark Streaming读取Kafka的消息,获得的结果其实是一个RDD。DStream提供了foreachRDD(func)方法,通过…
Spark Streaming 管理 Kafka Offsets 的方式探讨
Spark Streaming 应用从Kafka中获取信息是一种常见的场景。从Kafka中读取持续不断的数据将有很多优势,例如性能好、速度快。然而,用户必须管理Kafka Offsets保证Spark Streaming应用挂掉之后仍然能够正确地读取数据。在这一篇文章,我们将来…
Spark 在反作弊聚类场景的实践
目前知乎站内的 spammer 为了快速取得收效,往往倾向于大批量地产生相似的 spam 内容,或者密集地产生特定的行为。针对这种大量,相似,和相对聚集的特点,我们最近开始尝试使用聚类的方式去发现和挖掘 spammer。 anti-spam 现阶段使用到聚类的场景主要有面向内容和行为的聚类。 聚类的目的在于把相似的内容和行为聚集在一起。常见的聚类方法有 k-means, 层次聚类。另外还有基于密度和图的聚类分析方案。