首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Python与大数据
掘友等级
大数据开发工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
1
文章 1
沸点 0
赞
1
返回
|
搜索文章
最新
热门
Flink部署保姆级教程
集群角色 客户端(Client):代码由客户端获取并做转换,之后提交给JobManger。 JobManager 是 Flink 集群里的“管事人”,对作业进行中央调度管理;而它获取到要执行的作业后,
Hive 保姆级入门教程
Apache Hive 从入门到放弃 Hive简介 Hive是什么 基于Hadoop的数据仓库工具,可以用SQL查询Hive表 实现了类似SQL的HiveQL,使得开发MapReduce应用更简单 示
Spark 部署文档
Spark Local环境部署 下载地址 条件 Python3.11.4 JDK1.8 解压 解压下载的Spark安装包 tar -zxvf spark-3.4.1-bin-hadoop3.tgz -
CentOS7 源码安装Python 3.11.4
安装步骤 安装编译环境和依赖包: 下载Python 3.11.4源码包: 解压源码包: 编译和安装: 设置软链接指向Python3: 检查Python版本以确认是否安装成功: 输出Python 3.1
Koalas入门教程
Koalas简介 Koalas是基于Apache Spark的Python API,提供与pandas类似的DataFrame API。使用Koalas可以让数据科学家在大数据环境下
PySpark SQL 基础
1. PySpark SQL概述 PySpark提供了Python API来使用Spark SQL的功能 可以通过SparkSession实例进行交互 支持访问结构化数据源,分析和查询 2. Data
Spark的两种共享变量方式
Spark有两种共享变量方式:广播变量(broadcast variable)与累加器(accumulator)。累加器用来对信息进行聚合,而广播变量用来高效分发较大的只读对象。
PySpark 中RDD 的持久化技术
RDD 的持久化(缓存)主要有以下两种技术: 1. 内存持久化 将RDD通过cache()或persist()方法存入内存中,默认使用的是内存持久化。 2. 磁盘持久化(CheckPoint)
PySpark中关于RDD的高频面试题
一、在 PySpark 中,RDD 的创建主要有以下几种方式: 从集合创建:通过 SparkContext 的 parallelize() 方法从本地集合创建RDD。例如: 从外部存储创建:例如通过
PySpark 从入门到精通
PySpark简介 发展背景 您好,根据我们前面的讨论,我重新总结一下PySpark的发展背景: 2009年 - Spark诞生,使用Scala语言开发。 2010年 - Spark成为Apache孵
下一页
个人成就
文章被点赞
8
文章被阅读
16,803
掘力值
362
关注了
0
关注者
5
收藏集
0
关注标签
6
加入于
2023-05-28