稀土掘金 稀土掘金
    • 首页
    • AI Coding
    • 数据标注 NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
spark
订阅
avatar
jasondyoung
更多收藏集

微信扫码分享

微信
新浪微博
QQ

4篇文章 · 0订阅
  • Spark streaming消费Kafka的正确姿势
    在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式…
    • 王知无
    • 6年前
    • 9.7k
    • 19
    • 1
    Java
  • Spark 常用函数讲解 --Action 操作
    RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个 RDD 代表一个分区里的数据集 RDD 有两种操作算子: Transformation(转换):Transformation 属于延迟计算,当一个 RDD 转换成另一个 RDD 时并没有立即进行转换,仅仅是记住 了数据集的逻辑操作 Ation(执行):触发 Spark 作业的运行,真正触发转换算子的计算
    • MOBIN1419
    • 9年前
    • 1.0k
    • 20
    • 评论
    后端 Spark
    Spark 常用函数讲解 --Action 操作
  • Spark Streaming-- 实战篇
    prak Streaming 属于 Saprk API 的扩展,支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(fault-tolerant)的流处理。可以接受来自 KafKa,Flume,ZeroMQ Kinesis Twitter 或 TCP 套接字的数据源,处理的结果数据可以存储到文件系统 数据库 现场 dashboards 等。
    • MOBIN1419
    • 9年前
    • 1.3k
    • 31
    • 评论
    后端
    Spark Streaming-- 实战篇