首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Spark
Python与大数据
创建于2023-07-18
订阅专栏
PySpark笔记
暂无订阅
共5篇文章
创建于2023-07-18
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Spark 部署文档
Spark Local环境部署 下载地址 条件 Python3.11.4 JDK1.8 解压 解压下载的Spark安装包 tar -zxvf spark-3.4.1-bin-hadoop3.tgz -
Koalas入门教程
Koalas简介 Koalas是基于Apache Spark的Python API,提供与pandas类似的DataFrame API。使用Koalas可以让数据科学家在大数据环境下
PySpark SQL 基础
1. PySpark SQL概述 PySpark提供了Python API来使用Spark SQL的功能 可以通过SparkSession实例进行交互 支持访问结构化数据源,分析和查询 2. Data
Spark的两种共享变量方式
Spark有两种共享变量方式:广播变量(broadcast variable)与累加器(accumulator)。累加器用来对信息进行聚合,而广播变量用来高效分发较大的只读对象。
PySpark 中RDD 的持久化技术
RDD 的持久化(缓存)主要有以下两种技术: 1. 内存持久化 将RDD通过cache()或persist()方法存入内存中,默认使用的是内存持久化。 2. 磁盘持久化(CheckPoint)