zed

赞

0

|

搜索文章

Spark 系列（十六）—— Spark Streaming 整合 Kafka

本文使用的 Kafka 版本为 kafka_2.12-2.2.0，故采用第二种方式进行整合。在示例代码中 kafkaParams 封装了 Kafka 消费者的属性，这些属性和 Spark Streaming 无关，是 Kafka 原生 API 中就有定义的。其中服务器地址、键…

5年前
1.1k
点赞
评论

Spark 系列（十五）—— Spark Streaming 整合 Flume

Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。在推送式方法 (Flume-style Push-based Ap…

5年前
432
点赞
评论

Spark 系列（十四）—— Spark Streaming 基本操作

这里先引入一个基本的案例来演示流的创建：获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下：此时控制台输出如下，可以看到已经接收到数据并按行进行了词频统计。 Spark Streaming 编程的入口类是 StreamingContext，在创建时候需要指明 spar…

5年前
719
点赞
2

Spark 系列（十三）—— Spark Streaming 与流处理

在流处理之前，数据通常存储在数据库，文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储，采用 MapReduce 进行数据查询或分析，这就是典型的静态数据处理架构。而流处理则是直接对运动…

5年前
464
1
评论

Spark 系列（十二）—— Spark SQL JOIN 操作

本文主要介绍 Spark SQL 的多表连接，需要预先准备测试数据。分别创建员工和部门的 Datafame，并注册为临时视图，代码如下： Cross (or Cartesian) Join : 交叉 (或笛卡尔) 连接。自然连接是在两张表中寻找那些数据类型和列名都相同的字段，…

5年前
1.7k
点赞
评论

Spark 系列（十）—— Spark SQL 外部数据源

Spark 支持以下六个核心数据源，同时 Spark 社区还提供了多达上百种数据源的读取方式，能够满足绝大部分使用场景。 CSV 是一种常见的文本文件格式，其中每一行表示一条记录，记录中的每个字段用逗号分隔。为节省主文篇幅，所有读写配置项见文末 9.1 小节。需要注意的是：…

5年前
1.8k
2
评论

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

Spark SQL 是 Spark 中的一个子模块，主要用于操作结构化数据。它具有以下特点：支持扩展并能保证容错。为了支持结构化数据的处理，Spark SQL 提供了新的数据结构 DataFrame。DataFrame 是一个由具名列组成的数据集。它在概念上等同于关系数据库…

5年前
671
1
评论

Spark 系列（七）—— 基于 ZooKeeper 搭建 Spark 高可用集群

这里搭建一个 3 节点的 Spark 集群，其中三台主机上均部署 Worker 服务。同时为了保证高可用，除了在 hadoop001 上部署主 Master 服务外，还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务，Master 服务由 Z…

5年前
487
点赞
评论

Spark 系列（六）—— 累加器与广播变量

广播变量：主要用于在节点间高效分发大对象。 counter 最后的结果是 0，导致这个问题的主要原因是闭包。 1. Scala 中闭包的概念 more : 是一个自由变量 (free variable)，因为函数字面量本生并没有给 more 赋予任何含义。按照定义：在创建函数…

5年前
448
点赞
评论

Spark 系列（四）—— RDD常用算子详解

flatMap(func) 与 map 类似，但每一个输入的 item 会被映射成 0 个或多个输出的 items（ func 返回类型需要为 Seq）。与 map 类似，但函数单独在 RDD 的每个分区上运行， func函数的类型为 Iterator<T> => …

5年前
516
点赞
评论

个人成就

文章被点赞 36

文章被阅读 44,581

掘力值 1,153

加入于

2020-08-14