首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
PySpark
WHY6666
创建于2023-05-01
订阅专栏
pyspark学习
等 3 人订阅
共8篇文章
创建于2023-05-01
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
PySpark基础入门(8):Spark SQL(内容补充)
包括SparkSQL Shuffle 分区;SparkSQL 数据清洗API;SparkSQL函数定义(UDF函数);SparkSQL 使用窗口函数;SparkSQL运行流程
PySpark基础入门(7):Spark SQL
SparkSQL 是Spark的一个模块, 用于处理海量结构化数据;PySpark使用DataFrame进行数据抽象,是一个二维表数据结构,适用于分布式集合
PySpark基础入门(6):Spark Shuffle
Shuffle是连接map和reduce之间的桥梁,它将map的输出对应到reduce输入中,涉及到序列化反序列化、跨节点网络IO以及磁盘读写IO等
PySpark基础入门(5):Spark 内核调度
Spark任务调度:如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stage,将每个Stage中的任务发到指定节点运行
PySpark基础入门(4):RDD共享变量
广播变量:作用是将本地的list对象标识为广播变量对象;累加器:作用是从各个executor对象中收集运行结果并作用于其自身(类似于内存指针)
PySpark基础入门(3):RDD持久化
RDD的持久化:RDD 的数据是过程数据,因此需要持久化存储; RDD之间进行相互迭代的计算,新的RDD的生成代表着旧的RDD的消失;这样的特性可以最大化地利用资源,老旧地RDD可以及时地从内存中清理
PySpark基础入门(2):RDD及其常用算子
PySpark基础入门第二篇,主要介绍了RDD的基础内容以及常用算子,包括transformation算子,action算子以及一些分区操作算子
PySpark基础入门(1):基础概念+环境搭建
pyspark基础知识学习第一篇,介绍了spark的基础概念以及PySpark的环境搭建,包括local,standAlone以及spark on yarn