首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Python与大数据
掘友等级
大数据开发工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
1
文章 1
沸点 0
赞
1
返回
|
搜索文章
最新
热门
HQL语法优化之Join优化
Hive拥有多种join算法,包括Common Join,Map Join,Bucket Map Join,Sort Merge Buckt Map Join等
HQL语法优化之分组聚合优化
Hive中未经优化的分组聚合,是通过一个MapReduce Job实现的。Map端负责读取数据,并按照分组字段分区,通过Shuffle,将数据发往Reduce端,各组数据在Reduce端完成最终的聚合
Hive Explain查看执行计划
Explain呈现的执行计划,由一系列 Stage 组成,这一系列 Stage 具有依赖关系,每个Stage对应一个 MapReduce Job,或者一个文件系统操作等。
Hive企业级调优-计算资源配置
计算环境为Hive on MR。计算资源的调整主要包括Yarn和MR。 Yarn资源配置 需要调整的Yarn参数均与CPU、内存等资源有关
Hive文件格式和压缩
Hadoop压缩 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZ
Hive分桶表
分区表提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区。对于一张表或者分区,Hive 可以进一步组织成桶。
Hive分区表
Hive中的分区就是把一张大表的数据按照业务需要分散存储到多个目录,每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区,这样的查询效率会提高很多。
再聊 Flink 部署模式
Flink 部署模式生产中推荐Application Mode模式,它为每一个提交的应用程序单独启动一个JobManager、main方法在JobManager上执行。
YRAN 调度流程介绍
YARN 的基础架构主要包括三大组件:ResourceManager、Nodemanager、ApplicationMaster
HDFS 读写流程介绍
工作中了解HDFS读写流程至关重要是必备技能。当写入和下载出问题后才能知道怎么排查问题,要知其然知其所以然。
下一页
个人成就
文章被点赞
8
文章被阅读
19,877
掘力值
368
关注了
0
关注者
5
收藏集
0
关注标签
6
加入于
2023-05-28