Spark Streaming - wen酱110586的收藏集 - 掘金

Spark Streaming

更多收藏集

15篇文章 · 0订阅

Spark Streaming 的容错机制

此时我们启动一个Application任务，根据我们启动的模式和运行集群的类型，会根据一定的策略选择一台服务器当做Driver服务器，在其初始化完成之后，就会顺带把这些Executor给初始化完成。之后Driver就会发送Receiver到某一个Executor上面，Rece…

说出你的愿望吧
6年前
3.2k
32
2

完成你的第一个Spark Streaming程序

其实 Spark Streaming 主要就是把算子用用，多敲代码的事儿。我当时觉得这个Spark Streaming好像要提的事情并不多呀，所以就直接跳过了。然后··· 虽然图很简陋，但是能把信息准确地表达就好。第二行，我们setMaster(local[2])，这里要注意…

说出你的愿望吧
5年前
1.8k
41
5

Spark 系列（十三）—— Spark Streaming 与流处理

在流处理之前，数据通常存储在数据库，文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储，采用 MapReduce 进行数据查询或分析，这就是典型的静态数据处理架构。而流处理则是直接对运动…

heibaiying
6年前
1.5k
点赞
评论

Spark 系列（十四）—— Spark Streaming 基本操作

这里先引入一个基本的案例来演示流的创建：获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下：此时控制台输出如下，可以看到已经接收到数据并按行进行了词频统计。 Spark Streaming 编程的入口类是 StreamingContext，在创建时候需要指明 spar…

heibaiying
6年前
1.2k
1
评论

Spark 系列（十五）—— Spark Streaming 整合 Flume

Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。在推送式方法 (Flume-style Push-based Ap…

heibaiying
6年前
2.2k
点赞
2

Spark 系列（十六）—— Spark Streaming 整合 Kafka

本文使用的 Kafka 版本为 kafka_2.12-2.2.0，故采用第二种方式进行整合。在示例代码中 kafkaParams 封装了 Kafka 消费者的属性，这些属性和 Spark Streaming 无关，是 Kafka 原生 API 中就有定义的。其中服务器地址、键…

heibaiying
6年前
3.6k
3
5

下：比拼生态和未来，Spark和Flink哪家强？

Spark 是最活跃的 Apache 项目之一。从 2014 年左右开始得到广泛关注。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks，由最初的 Spark 创造者们成立的公司。今年 6 月的 Spark+AI 峰会参加人数超过 4000。 …

Ververica
6年前
1.3k
1
评论

Spark Streaming VS Flink

本文从编程模型、任务调度、时间机制、Kafka 动态分区的感知、容错及处理语义、背压等几个方面对比 Spark Streaming 与 Flink，希望对有实时处理需求业务的企业端用户在框架选型有所启发。本文篇幅较长，建议先收藏～ Executor:负责执行 task，反馈执行…

美图数据技术团队
7年前
3.6k
36
评论

Flink 大厂面试题

简单介绍一下 Flink Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽

摸鱼专家
4年前
13k
205
评论

使用 ES-Hadoop 将 Spark Streaming 流数据写入 ES

本文将详细介绍利用 ES-Hadoop 将 Spark 处理的数据写入到 ES 中。很显然是缺少 httpclient 相关依赖造成的，对比开源版本与 CDH 版本的 Spark，发现开源版本多出了 commons-httpclient-3.1.jar，因此上述 Maven …

rochy_he
7年前
5.6k
10
2