首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Python与大数据
掘友等级
大数据开发工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
1
文章 1
沸点 0
赞
1
返回
|
搜索文章
Python与大数据
大数据开发工程师
·
8月前
关注
Flink部署保姆级教程
集群角色 客户端(Client):代码由客户端获取并做转换,之后提交给JobManger。 JobManager 是 Flink 集群里的“管事人”,对作业进行中央调度管理...
赞
评论
分享
Python与大数据
大数据开发工程师
·
8月前
关注
Hive 保姆级入门教程
Apache Hive 从入门到放弃 Hive简介 Hive是什么 基于Hadoop的数据仓库工具,可以用SQL查询Hive表 实现了类似SQL的HiveQL,使得开发Ma...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
Spark 部署文档
Spark Local环境部署 下载地址 条件 Python3.11.4 JDK1.8 解压 解压下载的Spark安装包 tar -zxvf spark-3.4.1-bin...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
CentOS7 源码安装Python 3.11.4
安装步骤 安装编译环境和依赖包: 下载Python 3.11.4源码包: 解压源码包: 编译和安装: 设置软链接指向Python3: 检查Python版本以确认是否安装成功...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
Koalas入门教程
Koalas简介 Koalas是基于Apache Spark的Python API,提供与pandas类似的DataFrame API。使用Koalas可以让数据科学家在大...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
PySpark SQL 基础
1. PySpark SQL概述 PySpark提供了Python API来使用Spark SQL的功能 可以通过SparkSession实例进行交互 支持访问结构化数据源...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
Spark的两种共享变量方式
Spark有两种共享变量方式:广播变量(broadcast variable)与累加器(accumulator)。累加器用来对信息进行聚合,而广播变量用来高效分发较大的只读...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
PySpark 中RDD 的持久化技术
RDD 的持久化(缓存)主要有以下两种技术: 1. 内存持久化 将RDD通过cache()或persist()方法存入内存中,默认使用的是内存持久化。 2. 磁盘持久化(C...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
PySpark中关于RDD的高频面试题
一、在 PySpark 中,RDD 的创建主要有以下几种方式: 从集合创建:通过 SparkContext 的 parallelize() 方法从本地集合创建RDD。例如:...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
PySpark 从入门到精通
PySpark简介 发展背景 您好,根据我们前面的讨论,我重新总结一下PySpark的发展背景: 2009年 - Spark诞生,使用Scala语言开发。 2010年 - ...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
PyFlink从入门到精通
PyFlink学习大纲 PyFlink简介 什么是PyFlink PyFlink是一个可以让我们用Python语言编写Flink程序的库。它提供了与Flink Java/S...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
Flink SQL DDL基本语法介绍
Flink SQL DDL(Data Definition Language)基本语法介绍。 一、数据库 创建数据库 语法 案例 查询数据库 修改数据库 删除数据库 RES...
赞
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
Flink SQL流处理中的表
Table API 和 SQL 是最上层的API,在Flink中这两种API被集成在一起,SQL执行的对象也是Flink中的表(Table),所以我们一般会认为它们是一体的...
3
评论
分享
Python与大数据
大数据开发工程师
·
9月前
关注
Chat2DB:超丝滑的智能且多功能的SQL客户端和报表工具
Chat2DB 智能的通用数据库SQL客户端和报表工具,适用于各种数据库。它是一款有开源免费的多数据库客户端工具,支持windows、mac本地安装,也支持服务器端部署,w...
1
评论
分享
Python与大数据
大数据开发工程师
·
10月前
关注
Flink中的核心概念
一、并行度(Parallelism) 并行子任务和并行度 当要处理的数据量非常大时,可以把一个算子操作“复制”多份到多个节点,数据来了之后就可以到其中任意一个执行。...
赞
评论
分享
Python与大数据
大数据开发工程师
·
10月前
关注
hive 中那些函数的用法!
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。 好处:避免用户反复写逻辑,可以直接拿来使用。...
赞
评论
分享
Python与大数据
大数据开发工程师
·
10月前
关注
HQL语法优化之其他优化
CBO优化 CBO是指Cost based Optimizer,即基于计算成本的优化。 在Hive中,计算成本模型考虑到了...
1
评论
分享
Python与大数据
大数据开发工程师
·
10月前
关注
HQL语法优化之小文件合并
小文件合并优化,分为两个方面,分别是Map端输入的小文件合并,和Reduce端输出的小文件合并。 Map端输入文件合并 合并Map端输入的小文件,是指将多个小文件划分到一个...
赞
评论
分享
Python与大数据
大数据开发工程师
·
10月前
关注
HQL语法优化之任务并行度
对于一个分布式的计算任务而言,设置一个合适的并行度十分重要。Hive的计算任务由MapReduce完成,故并行度的调整需要分为Map端和Reduce端。...
赞
评论
分享
Python与大数据
大数据开发工程师
·
10月前
关注
HQL语法优化之数据倾斜
数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同key的数据被发往同一个Reduce,进而...
赞
评论
分享
下一页
个人成就
文章被点赞
6
文章被阅读
6,866
掘力值
325
关注了
0
关注者
3
收藏集
0
关注标签
6
加入于
2023-05-28