Spark

Spark

Spark

PySpark笔记

暂无订阅共5篇文章创建于2023-07-18

Spark 部署文档

Spark Local环境部署下载地址条件 Python3.11.4 JDK1.8 解压解压下载的Spark安装包 tar -zxvf spark-3.4.1-bin-hadoop3.tgz -

2年前
477
点赞
评论

Koalas入门教程

Koalas简介 Koalas是基于Apache Spark的Python API,提供与pandas类似的DataFrame API。使用Koalas可以让数据科学家在大数据环境下

2年前
368
点赞
评论

PySpark SQL 基础

1. PySpark SQL概述 PySpark提供了Python API来使用Spark SQL的功能可以通过SparkSession实例进行交互支持访问结构化数据源,分析和查询 2. Data

2年前
242
点赞
评论

Spark的两种共享变量方式

Spark有两种共享变量方式：广播变量（broadcast variable）与累加器（accumulator）。累加器用来对信息进行聚合，而广播变量用来高效分发较大的只读对象。

2年前
412
点赞
评论

PySpark 中RDD 的持久化技术

RDD 的持久化(缓存)主要有以下两种技术: 1. 内存持久化将RDD通过cache()或persist()方法存入内存中,默认使用的是内存持久化。 2. 磁盘持久化(CheckPoint)

2年前
190
点赞
评论

PySpark 中RDD 的持久化技术