Zlatan200

赞

30

|

搜索文章

赞

文章( 30 ) 沸点( 0 )

万亿级数据规模下的倾斜调优

数据倾斜是海量数据处理中最棘手的问题，本文将分享团队在万亿级数据规模下的倾斜调优经验。通过深入分析实际生产实践中数据倾斜的产生场景以及对数据倾斜背后原理的深度剖析，本文将给出简单、实用、高效的调优方案。同时，对于大数据处理中的两大基本算子GroupBy和Join，本文将提出针对…

金正皓
7年前
1.6k
18
评论

python通过调用jvm连接impala和phoenix数据库

很多已经入坑了数据挖掘工程师和数据分析师的人，基本上都会接触到mysql、SqlServer、hive、impala以及phoenix等等各种各样的数据库。

写代码ing
4年前
475
3
评论

python通过调用jvm连接impala和phoenix数据库

开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

现在大数据组件非常多，众说不一，在每个企业不同的使用场景里究竟应该使用哪个引擎呢？这是易观Spark实战营出品的开源Olap引擎测评报告，团队选取了Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大数据查询引擎，在原生推…

朝阳GAI爷
7年前
1.1k
5
评论

《我们一起进大厂》系列- Redis基础

心里忍不住暗骂，这叫啥问题，大家不都是用的这个嘛，但是你不能说出来。认真回答道：帅气迷人的面试官您好，因为传统的关系型数据库如Mysql已经不能适用所有的场景了，比如秒杀的库存扣减，APP首页的访问流量高峰等等，都很容易把数据库打崩，所以引入了缓存中间件，目前市面上比较常用的…

敖丙
6年前
194k
2.2k
163

《我们一起进大厂》系列- Redis基础

Hive搭建记录

简介 hive是一个构建在Hadoop上的数据仓库工具(框架)，可以将结构化的数据文件映射成一张数据表，并可以使用类sql的方式来对这样的数据文件进行读，写以及管理（包括元数据）。这套HIVE SQL

Warson_L
3年前
435
2
评论

Hive 调优总结，让 Hive 调优想法不再碎片化

通过阅读比较多的Hive调优材料，并根据自己的实践，总结Hive 调优如下，让Hive调优想法不再凌乱、碎片化，而是形成结构。这个链接基于上面的链接做了自己的实践经验总结，纠正了上面那篇文章中一些因为版本太老导致的参数不一致的问题。关于 group by 和 join 更详…

wjz1893
5年前
4.0k
6
2

Hive窗口函数保姆级教程

在SQL中有一类函数叫做聚合函数，例如sum()、avg()、max()等等，这类函数可以将多行数据按照规则聚集为一行，一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据，

五分钟学大数据
4年前
1.4k
3
评论

Kafka文件存储机制

partition：为了实现扩展性，一个非常大的topic可以分布到多个 broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列 segment：partition物理上由多个segment组成 message：每个se…

iFangcy_
5年前
530
1
评论

我花10个小时，写出了小白也能看懂的阿里数据中台分析！

数据中台被誉为大数据的下一站，由阿里兴起，核心思想是数据共享，2015年阿里提出“大中台，小前台”的策略。2018 年因为“腾讯数据中台论”，中台再度成为了人们谈论的焦点。 2019年，似乎人人都在提数据中台，但却不是所有人都清楚数据中台到底意味着什么。数据中台是只有大厂才需要…

小霸戈
6年前
17k
74
18

Hive的执行计划（Explain）

Hive的执行计划（Explain） HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理，hive 调优，排查数据倾斜等很有帮助语法如下： explain 后

小小小小小纯洁
4年前
1.2k
2
1

加入于

2022-01-24