首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Spark Streaming
订阅
wen酱110586
更多收藏集
微信扫码分享
微信
新浪微博
QQ
15篇文章 · 0订阅
Spark Streaming 的容错机制
此时我们启动一个Application任务,根据我们启动的模式和运行集群的类型,会根据一定的策略选择一台服务器当做Driver服务器,在其初始化完成之后,就会顺带把这些Executor给初始化完成。 之后Driver就会发送Receiver到某一个Executor上面,Rece…
完成你的第一个Spark Streaming程序
其实 Spark Streaming 主要就是把算子用用,多敲代码的事儿。我当时觉得这个Spark Streaming好像要提的事情并不多呀,所以就直接跳过了。然后··· 虽然图很简陋,但是能把信息准确地表达就好。 第二行,我们setMaster(local[2]),这里要注意…
Spark 系列(十三)—— Spark Streaming 与流处理
在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。 而流处理则是直接对运动…
Spark 系列(十四)—— Spark Streaming 基本操作
这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: 此时控制台输出如下,可以看到已经接收到数据并按行进行了词频统计。 Spark Streaming 编程的入口类是 StreamingContext,在创建时候需要指明 spar…
Spark 系列(十五)—— Spark Streaming 整合 Flume
Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 在推送式方法 (Flume-style Push-based Ap…
Spark 系列(十六)—— Spark Streaming 整合 Kafka
本文使用的 Kafka 版本为 kafka_2.12-2.2.0,故采用第二种方式进行整合。 在示例代码中 kafkaParams 封装了 Kafka 消费者的属性,这些属性和 Spark Streaming 无关,是 Kafka 原生 API 中就有定义的。其中服务器地址、键…
下:比拼生态和未来,Spark和Flink哪家强?
Spark 是最活跃的 Apache 项目之一。从 2014 年左右开始得到广泛关注。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks,由最初的 Spark 创造者们成立的公司。今年 6 月的 Spark+AI 峰会参加人数超过 4000。 …
Spark Streaming VS Flink
本文从编程模型、任务调度、时间机制、Kafka 动态分区的感知、容错及处理语义、背压等几个方面对比 Spark Streaming 与 Flink,希望对有实时处理需求业务的企业端用户在框架选型有所启发。本文篇幅较长,建议先收藏~ Executor:负责执行 task,反馈执行…
Flink 大厂面试题
简单介绍一下 Flink Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽
使用 ES-Hadoop 将 Spark Streaming 流数据写入 ES
本文将详细介绍利用 ES-Hadoop 将 Spark 处理的数据写入到 ES 中。 很显然是缺少 httpclient 相关依赖造成的,对比开源版本与 CDH 版本的 Spark,发现开源版本多出了 commons-httpclient-3.1.jar,因此上述 Maven …