大数据

大数据

大数据

大数据笔记

暂无订阅共24篇文章创建于2023-05-30

Flink部署保姆级教程

集群角色客户端（Client）：代码由客户端获取并做转换，之后提交给JobManger。 JobManager 是 Flink 集群里的“管事人”，对作业进行中央调度管理；而它获取到要执行的作业后，

2年前
1.1k
点赞
评论

Hive 保姆级入门教程

Apache Hive 从入门到放弃 Hive简介 Hive是什么基于Hadoop的数据仓库工具,可以用SQL查询Hive表实现了类似SQL的HiveQL,使得开发MapReduce应用更简单示

2年前
321
点赞
评论

Spark 部署文档

Spark Local环境部署下载地址条件 Python3.11.4 JDK1.8 解压解压下载的Spark安装包 tar -zxvf spark-3.4.1-bin-hadoop3.tgz -

2年前
477
点赞
评论

CentOS7 源码安装Python 3.11.4

安装步骤安装编译环境和依赖包: 下载Python 3.11.4源码包: 解压源码包: 编译和安装: 设置软链接指向Python3: 检查Python版本以确认是否安装成功: 输出Python 3.1

2年前
1.8k
点赞
评论

CentOS7 源码安装Python 3.11.4

Koalas入门教程

Koalas简介 Koalas是基于Apache Spark的Python API,提供与pandas类似的DataFrame API。使用Koalas可以让数据科学家在大数据环境下

2年前
368
点赞
评论

PySpark SQL 基础

1. PySpark SQL概述 PySpark提供了Python API来使用Spark SQL的功能可以通过SparkSession实例进行交互支持访问结构化数据源,分析和查询 2. Data

2年前
242
点赞
评论

Spark的两种共享变量方式

Spark有两种共享变量方式：广播变量（broadcast variable）与累加器（accumulator）。累加器用来对信息进行聚合，而广播变量用来高效分发较大的只读对象。

2年前
412
点赞
评论

PySpark 中RDD 的持久化技术

RDD 的持久化(缓存)主要有以下两种技术: 1. 内存持久化将RDD通过cache()或persist()方法存入内存中,默认使用的是内存持久化。 2. 磁盘持久化(CheckPoint)

2年前
190
点赞
评论

PySpark 中RDD 的持久化技术

PySpark中关于RDD的高频面试题

一、在 PySpark 中,RDD 的创建主要有以下几种方式: 从集合创建:通过 SparkContext 的 parallelize() 方法从本地集合创建RDD。例如: 从外部存储创建:例如通过

2年前
519
点赞
评论

PySpark中关于RDD的高频面试题

PySpark 从入门到精通

PySpark简介发展背景您好,根据我们前面的讨论,我重新总结一下PySpark的发展背景: 2009年 - Spark诞生,使用Scala语言开发。 2010年 - Spark成为Apache孵

2年前
555
点赞
评论

Chat2DB：超丝滑的智能且多功能的SQL客户端和报表工具

Chat2DB 智能的通用数据库SQL客户端和报表工具，适用于各种数据库。它是一款有开源免费的多数据库客户端工具，支持windows、mac本地安装，也支持服务器端部署，web网页访问。

2年前
1.6k
1
评论

Chat2DB：超丝滑的智能且多功能的SQL客户端和报表工具

hive 中那些函数的用法！

Hive会将常用的逻辑封装成函数给用户进行使用，类似于Java中的函数。好处：避免用户反复写逻辑，可以直接拿来使用。

2年前
322
点赞
评论

HQL语法优化之其他优化

CBO优化 CBO是指Cost based Optimizer，即基于计算成本的优化。在Hive中，计算成本模型考虑到了

2年前
121
1
评论

HQL语法优化之小文件合并

小文件合并优化，分为两个方面，分别是Map端输入的小文件合并，和Reduce端输出的小文件合并。 Map端输入文件合并合并Map端输入的小文件，是指将多个小文件划分到一个切片中

2年前
96
点赞
评论

HQL语法优化之任务并行度

对于一个分布式的计算任务而言，设置一个合适的并行度十分重要。Hive的计算任务由MapReduce完成，故并行度的调整需要分为Map端和Reduce端。

2年前
123
点赞
评论

HQL语法优化之数据倾斜

数据倾斜问题，通常是指参与计算的数据分布不均，即某个key或者某些key的数据量远超其他key，导致在shuffle阶段，大量相同key的数据被发往同一个Reduce，进而导致该Reduce所需的时间

2年前
262
点赞
评论

HQL语法优化之Join优化

Hive拥有多种join算法，包括Common Join，Map Join，Bucket Map Join，Sort Merge Buckt Map Join等

2年前
381
点赞
评论

HQL语法优化之分组聚合优化

Hive中未经优化的分组聚合，是通过一个MapReduce Job实现的。Map端负责读取数据，并按照分组字段分区，通过Shuffle，将数据发往Reduce端，各组数据在Reduce端完成最终的聚合

2年前
119
点赞
评论

Hive Explain查看执行计划

Explain呈现的执行计划，由一系列 Stage 组成，这一系列 Stage 具有依赖关系，每个Stage对应一个 MapReduce Job，或者一个文件系统操作等。

2年前
97
点赞
评论

Hive Explain查看执行计划

Hive企业级调优-计算资源配置

计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。 Yarn资源配置需要调整的Yarn参数均与CPU、内存等资源有关

2年前
428
点赞
评论

Hive企业级调优-计算资源配置