Spark - wen酱110586的收藏集 - 掘金

Spark

更多收藏集

160篇文章 · 0订阅

Apache SeaTunnel Zeta、Flink、Spark 怎么选？底层原理 + 实战对比一次讲透

本文档将深入解析 Apache SeaTunnel 支持的三大执行引擎：Zeta (SeaTunnel Engine)、Flink 和 Spark。

白鲸开源
19天前
38
点赞
评论

关于Spark基础的一些小问题补充

DAGScheduler拿到DAG有向无环图之后，按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task，最后封装在一个一个的taskSet集合中，然后把taskSet发送给TaskScheduler TaskScheduler得到taskSet集合之…

说出你的愿望吧
6年前
2.5k
29
1

一文带你过完Spark RDD的基础概念

上一篇权当吹水了，从这篇开始进入正题。 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区（Partition）列表，组成了该RDD的数据…

说出你的愿望吧
6年前
5.1k
63
10

Spark 系列（十六）—— Spark Streaming 整合 Kafka

本文使用的 Kafka 版本为 kafka_2.12-2.2.0，故采用第二种方式进行整合。在示例代码中 kafkaParams 封装了 Kafka 消费者的属性，这些属性和 Spark Streaming 无关，是 Kafka 原生 API 中就有定义的。其中服务器地址、键…

heibaiying
6年前
3.6k
3
5

Spark 系列（十五）—— Spark Streaming 整合 Flume

Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。在推送式方法 (Flume-style Push-based Ap…

heibaiying
6年前
2.2k
点赞
2

Spark 系列（十四）—— Spark Streaming 基本操作

这里先引入一个基本的案例来演示流的创建：获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下：此时控制台输出如下，可以看到已经接收到数据并按行进行了词频统计。 Spark Streaming 编程的入口类是 StreamingContext，在创建时候需要指明 spar…

heibaiying
6年前
1.2k
1
评论

Spark 系列（十三）—— Spark Streaming 与流处理

在流处理之前，数据通常存储在数据库，文件系统或其他形式的存储系统中。应用程序根据需要查询数据或计算数据。这就是传统的静态数据处理架构。Hadoop 采用 HDFS 进行数据存储，采用 MapReduce 进行数据查询或分析，这就是典型的静态数据处理架构。而流处理则是直接对运动…

heibaiying
6年前
1.5k
点赞
评论

Spark 系列（十一）—— Spark SQL 聚合函数 Aggregations

通常在使用大型数据集时，你可能关注的只是近似值而不是准确值，这时可以使用 approx_count_distinct 函数，并可以使用第二个参数指定最大允许误差。获取 DataFrame 中指定列的第一个值或者最后一个值。获取 DataFrame 中指定列的最小值或者最大值…

heibaiying
6年前
6.0k
1
评论

Spark 系列（十）—— Spark SQL 外部数据源

Spark 支持以下六个核心数据源，同时 Spark 社区还提供了多达上百种数据源的读取方式，能够满足绝大部分使用场景。 CSV 是一种常见的文本文件格式，其中每一行表示一条记录，记录中的每个字段用逗号分隔。为节省主文篇幅，所有读写配置项见文末 9.1 小节。需要注意的是：…

heibaiying
6年前
4.4k
4
评论

Spark 系列（九）—— Spark SQL 之 Structured API

Spark 中所有功能的入口点是 SparkSession，可以使用 SparkSession.builder() 创建。创建后应用程序就可以从现有 RDD，Hive 表或 Spark 数据源创建 DataFrame。示例如下： 1. 由外部数据集创建 2. 由内部数据集创建 …

heibaiying
6年前
1.4k
1
评论