首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
Python与大数据
创建于2023-05-30
订阅专栏
大数据笔记
暂无订阅
共24篇文章
创建于2023-05-30
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Flink部署保姆级教程
集群角色 客户端(Client):代码由客户端获取并做转换,之后提交给JobManger。 JobManager 是 Flink 集群里的“管事人”,对作业进行中央调度管理;而它获取到要执行的作业后,
Hive 保姆级入门教程
Apache Hive 从入门到放弃 Hive简介 Hive是什么 基于Hadoop的数据仓库工具,可以用SQL查询Hive表 实现了类似SQL的HiveQL,使得开发MapReduce应用更简单 示
Spark 部署文档
Spark Local环境部署 下载地址 条件 Python3.11.4 JDK1.8 解压 解压下载的Spark安装包 tar -zxvf spark-3.4.1-bin-hadoop3.tgz -
CentOS7 源码安装Python 3.11.4
安装步骤 安装编译环境和依赖包: 下载Python 3.11.4源码包: 解压源码包: 编译和安装: 设置软链接指向Python3: 检查Python版本以确认是否安装成功: 输出Python 3.1
Koalas入门教程
Koalas简介 Koalas是基于Apache Spark的Python API,提供与pandas类似的DataFrame API。使用Koalas可以让数据科学家在大数据环境下
PySpark SQL 基础
1. PySpark SQL概述 PySpark提供了Python API来使用Spark SQL的功能 可以通过SparkSession实例进行交互 支持访问结构化数据源,分析和查询 2. Data
Spark的两种共享变量方式
Spark有两种共享变量方式:广播变量(broadcast variable)与累加器(accumulator)。累加器用来对信息进行聚合,而广播变量用来高效分发较大的只读对象。
PySpark 中RDD 的持久化技术
RDD 的持久化(缓存)主要有以下两种技术: 1. 内存持久化 将RDD通过cache()或persist()方法存入内存中,默认使用的是内存持久化。 2. 磁盘持久化(CheckPoint)
PySpark中关于RDD的高频面试题
一、在 PySpark 中,RDD 的创建主要有以下几种方式: 从集合创建:通过 SparkContext 的 parallelize() 方法从本地集合创建RDD。例如: 从外部存储创建:例如通过
PySpark 从入门到精通
PySpark简介 发展背景 您好,根据我们前面的讨论,我重新总结一下PySpark的发展背景: 2009年 - Spark诞生,使用Scala语言开发。 2010年 - Spark成为Apache孵
Chat2DB:超丝滑的智能且多功能的SQL客户端和报表工具
Chat2DB 智能的通用数据库SQL客户端和报表工具,适用于各种数据库。它是一款有开源免费的多数据库客户端工具,支持windows、mac本地安装,也支持服务器端部署,web网页访问。
hive 中那些函数的用法!
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。 好处:避免用户反复写逻辑,可以直接拿来使用。
HQL语法优化之其他优化
CBO优化 CBO是指Cost based Optimizer,即基于计算成本的优化。 在Hive中,计算成本模型考虑到了
HQL语法优化之小文件合并
小文件合并优化,分为两个方面,分别是Map端输入的小文件合并,和Reduce端输出的小文件合并。 Map端输入文件合并 合并Map端输入的小文件,是指将多个小文件划分到一个切片中
HQL语法优化之任务并行度
对于一个分布式的计算任务而言,设置一个合适的并行度十分重要。Hive的计算任务由MapReduce完成,故并行度的调整需要分为Map端和Reduce端。
HQL语法优化之数据倾斜
数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同key的数据被发往同一个Reduce,进而导致该Reduce所需的时间
HQL语法优化之Join优化
Hive拥有多种join算法,包括Common Join,Map Join,Bucket Map Join,Sort Merge Buckt Map Join等
HQL语法优化之分组聚合优化
Hive中未经优化的分组聚合,是通过一个MapReduce Job实现的。Map端负责读取数据,并按照分组字段分区,通过Shuffle,将数据发往Reduce端,各组数据在Reduce端完成最终的聚合
Hive Explain查看执行计划
Explain呈现的执行计划,由一系列 Stage 组成,这一系列 Stage 具有依赖关系,每个Stage对应一个 MapReduce Job,或者一个文件系统操作等。
Hive企业级调优-计算资源配置
计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。 Yarn资源配置 需要调整的Yarn参数均与CPU、内存等资源有关
下一页