首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark
订阅
jasondyoung
更多收藏集
微信扫码分享
微信
新浪微博
QQ
4篇文章 · 0订阅
Spark streaming消费Kafka的正确姿势
在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式…
Spark 常用函数讲解 --Action 操作
RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个 RDD 代表一个分区里的数据集 RDD 有两种操作算子: Transformation(转换):Transformation 属于延迟计算,当一个 RDD 转换成另一个 RDD 时并没有立即进行转换,仅仅是记住 了数据集的逻辑操作 Ation(执行):触发 Spark 作业的运行,真正触发转换算子的计算
Spark Streaming-- 实战篇
prak Streaming 属于 Saprk API 的扩展,支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(fault-tolerant)的流处理。可以接受来自 KafKa,Flume,ZeroMQ Kinesis Twitter 或 TCP 套接字的数据源,处理的结果数据可以存储到文件系统 数据库 现场 dashboards 等。