PySpark

PySpark

PySpark

pyspark学习

等 3 人订阅共8篇文章创建于2023-05-01

PySpark基础入门（8）：Spark SQL（内容补充）

包括SparkSQL Shuffle 分区；SparkSQL 数据清洗API；SparkSQL函数定义（UDF函数）；SparkSQL 使用窗口函数；SparkSQL运行流程

2年前
392
1
1

PySpark基础入门（7）：Spark SQL

SparkSQL 是Spark的一个模块, 用于处理海量结构化数据；PySpark使用DataFrame进行数据抽象，是一个二维表数据结构，适用于分布式集合

2年前
439
2
评论

PySpark基础入门（6）：Spark Shuffle

Shuffle是连接map和reduce之间的桥梁，它将map的输出对应到reduce输入中，涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等

2年前
920
3
评论

PySpark基础入门（5）：Spark 内核调度

Spark任务调度：如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Stage，将每个Stage中的任务发到指定节点运行

2年前
302
2
评论

PySpark基础入门（4）：RDD共享变量

广播变量：作用是将本地的list对象标识为广播变量对象；累加器：作用是从各个executor对象中收集运行结果并作用于其自身（类似于内存指针）

2年前
203
1
评论

PySpark基础入门（3）：RDD持久化

RDD的持久化：RDD 的数据是过程数据，因此需要持久化存储； RDD之间进行相互迭代的计算，新的RDD的生成代表着旧的RDD的消失；这样的特性可以最大化地利用资源，老旧地RDD可以及时地从内存中清理

2年前
102
1
评论

PySpark基础入门（2）：RDD及其常用算子

PySpark基础入门第二篇，主要介绍了RDD的基础内容以及常用算子，包括transformation算子，action算子以及一些分区操作算子

2年前
238
1
评论

PySpark基础入门（1）：基础概念＋环境搭建

pyspark基础知识学习第一篇，介绍了spark的基础概念以及PySpark的环境搭建，包括local，standAlone以及spark on yarn

2年前
1.8k
1
评论