首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
mlzheng
更多收藏集
微信扫码分享
微信
新浪微博
QQ
10篇文章 · 0订阅
数仓面试高频考点--解决hive小文件过多问题
每执行一次 insert 时hive中至少产生一个文件,因为 insert 导入时至少会有一个MapTask。 像有的业务需要每10分钟就要把数据同步到 hive 中,这样产生的文件就会很多。 对 hive 来说,在进行查询时,每个小文件都会当成一个块,启动一个Map任务来完成…
ClickHouse的索引原理
这篇文章来讲一讲对ClickHouse性能影响比较大的主题——索引。如果带着RDBMS的经验来使用ClickHouse的索引的话,一不小心就会掉进坑里。
使用Canal实现ClickHouse实时同步MySQL数据
ClickHouse作为OLAP分析引擎已经被广泛使用,数据的导入导出是用户面临的第一个问题。由于ClickHouse本身无法很好地支持单条大批量的写入,因此在实时同步数据方面需要借助其他服务协助。本文给出一种结合Canal+Kafka的方案,并且给出在多个MySQL实例分库分…
全解MySQL终章:这份爆肝30W字的数据库宝典赠与有缘的你!
无论你是Java、Go、PHP、Python、Node....任何语言的开发者,如若对数据库仅停留在基本的增删改查,那相信本系列的文章绝对能助力大家成为“码农Plus”,也一定值得诸位细读品鉴~
Hive如何处理小文件问题?
1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。 2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。 3.数据源本身就包含大量的小文件。 1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始…
Hive解析Json数组超全讲解
在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何
Hive性能优化小结
在工作中使用hive比较多,也写了很多HiveQL。这里从三个方面对Hive常用的一些性能优化进行了总结。表设计层面优化利用分区表优化分区表是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个
一文讲懂 Hive 高可用、HiveServer2 高可用及 Metastore 高可用
当部署的 Metastore 宕机或 HiveServer2 服务宕机时,两个服务可能持续相当长的时间不可用,直到服务被重新拉起。为了避免这种服务中断情况,那么如何避免这种情况发生呢?
Hive UDF 开发手册
特此整理一番,供自己日后工作参考之用。同时也分享给大家,可以指导初学者开发自定义UDF,也可以作为随用随查的参考手册: 临时函数:只在当前客户端会话中生效的函数,不会影响到其他的会话。客户端退出后,临时函数就失效了 永久函数:注册永久函数后,其他的客户端会话也可以使用这个函数。…
小白也能看懂的 Hive 调优
Hive 一个常用的大数据组件,影响它的性能的从来都不是因为数据量过大的问题,而是数据倾斜,冗余,Job 和 IO 过多,MapReduce 分配不合理···等