首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
spark系列
订阅
啊江呀
更多收藏集
微信扫码分享
微信
新浪微博
QQ
16篇文章 · 0订阅
Spark 系列(十六)—— Spark Streaming 整合 Kafka
本文使用的 Kafka 版本为 kafka_2.12-2.2.0,故采用第二种方式进行整合。 在示例代码中 kafkaParams 封装了 Kafka 消费者的属性,这些属性和 Spark Streaming 无关,是 Kafka 原生 API 中就有定义的。其中服务器地址、键…
Spark 系列(十五)—— Spark Streaming 整合 Flume
Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 在推送式方法 (Flume-style Push-based Ap…
Spark 系列(十四)—— Spark Streaming 基本操作
这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: 此时控制台输出如下,可以看到已经接收到数据并按行进行了词频统计。 Spark Streaming 编程的入口类是 StreamingContext,在创建时候需要指明 spar…
Spark 系列(十三)—— Spark Streaming 与流处理
在流处理之前,数据通常存储在数据库,文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储,采用 MapReduce 进行数据查询或分析,这就是典型的静态数据处理架构。 而流处理则是直接对运动…
Spark 系列(十二)—— Spark SQL JOIN 操作
本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: Cross (or Cartesian) Join : 交叉 (或笛卡尔) 连接。 自然连接是在两张表中寻找那些数据类型和列名都相同的字段,…
Spark 系列(十一)—— Spark SQL 聚合函数 Aggregations
通常在使用大型数据集时,你可能关注的只是近似值而不是准确值,这时可以使用 approx_count_distinct 函数,并可以使用第二个参数指定最大允许误差。 获取 DataFrame 中指定列的第一个值或者最后一个值。 获取 DataFrame 中指定列的最小值或者最大值…
Spark 系列(十)—— Spark SQL 外部数据源
Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV 是一种常见的文本文件格式,其中每一行表示一条记录,记录中的每个字段用逗号分隔。 为节省主文篇幅,所有读写配置项见文末 9.1 小节。 需要注意的是:…
Spark 系列(九)—— Spark SQL 之 Structured API
Spark 中所有功能的入口点是 SparkSession,可以使用 SparkSession.builder() 创建。创建后应用程序就可以从现有 RDD,Hive 表或 Spark 数据源创建 DataFrame。示例如下: 1. 由外部数据集创建 2. 由内部数据集创建 …
Spark 系列(八)—— Spark SQL 之 DataFrame 和 Dataset
Spark SQL 是 Spark 中的一个子模块,主要用于操作结构化数据。它具有以下特点: 支持扩展并能保证容错。 为了支持结构化数据的处理,Spark SQL 提供了新的数据结构 DataFrame。DataFrame 是一个由具名列组成的数据集。它在概念上等同于关系数据库…
Spark 系列(七)—— 基于 ZooKeeper 搭建 Spark 高可用集群
这里搭建一个 3 节点的 Spark 集群,其中三台主机上均部署 Worker 服务。同时为了保证高可用,除了在 hadoop001 上部署主 Master 服务外,还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务,Master 服务由 Z…