首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
zed
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
Spark 系列(十六)—— Spark Streaming 整合 Kafka
本文使用的 Kafka 版本为 kafka_2.12-2.2.0,故采用第二种方式进行整合。 在示例代码中 kafkaParams 封装了 Kafka 消费者的属性,这些属性和 Spark Streaming 无关,是 Kafka 原生 API 中就有定义的。其中服务器地址、键…
Spark 系列(十五)—— Spark Streaming 整合 Flume
Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 在推送式方法 (Flume-style Push-based Ap…
Spark 系列(十四)—— Spark Streaming 基本操作
这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: 此时控制台输出如下,可以看到已经接收到数据并按行进行了词频统计。 Spark Streaming 编程的入口类是 StreamingContext,在创建时候需要指明 spar…
Spark 系列(十三)—— Spark Streaming 与流处理
在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。 而流处理则是直接对运动…
Spark 系列(十二)—— Spark SQL JOIN 操作
本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: Cross (or Cartesian) Join : 交叉 (或笛卡尔) 连接。 自然连接是在两张表中寻找那些数据类型和列名都相同的字段,…
Spark 系列(十)—— Spark SQL 外部数据源
Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV 是一种常见的文本文件格式,其中每一行表示一条记录,记录中的每个字段用逗号分隔。 为节省主文篇幅,所有读写配置项见文末 9.1 小节。 需要注意的是:…
Spark 系列(八)—— Spark SQL 之 DataFrame 和 Dataset
Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。它具有以下特点: 支持扩展并能保证容错。 为了支持结构化数据的处理,Spark SQL 提供了新的数据结构 DataFrame。DataFrame 是一个由具名列组成的数据集。它在概念上等同于关系数据库…
Spark 系列(七)—— 基于 ZooKeeper 搭建 Spark 高可用集群
这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务,Master 服务由 Z…
Spark 系列(六)—— 累加器与广播变量
广播变量:主要用于在节点间高效分发大对象。 counter 最后的结果是 0,导致这个问题的主要原因是闭包。 1. Scala 中闭包的概念 more : 是一个自由变量 (free variable),因为函数字面量本生并没有给 more 赋予任何含义。 按照定义:在创建函数…
Spark 系列(四)—— RDD常用算子详解
flatMap(func) 与 map 类似,但每一个输入的 item 会被映射成 0 个或多个输出的 items( func 返回类型需要为 Seq)。 与 map 类似,但函数单独在 RDD 的每个分区上运行, func函数的类型为 Iterator<T> => …
下一页
个人成就
文章被点赞
36
文章被阅读
44,581
掘力值
1,153
关注了
0
关注者
78
收藏集
0
关注标签
3
加入于
2020-08-14