sql - user4488061658619的收藏集 - 掘金

sql

user4488061658619

更多收藏集

8篇文章 · 0订阅

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day29】——数据倾斜2

前言 @[toc] 停🤚 不要往下滑了，默默想5min，看看这5道面试题你都会吗？以下答案仅供参考：面试题 01、数据源中的数据分布不均匀，Spark需要频繁交互? 解决方案：避免数据源的数

Maynor在掘金
4年前
316
1
评论

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day29】——数据倾斜2

distinct效率更高还是group by效率更高？

目录 00 结论 01 distinct的使用 02 group by的使用 03 distinct和group by原理 * 04 推荐group by的原因 00结论先说大致的结论（完整结论

不会敲代码了
4年前
13k
8
1

Hadoop全家桶-ORC文件格式

ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式。用于降低Hadoop数据存储空间和加速Hive查询速度。这条Hive SQL转换为相应的MapReduce程序执行时，虽然我们仅仅只需要查询该表的第2列数…

CCCCCold丶kl
6年前
5.9k
4
1

谈谈Spark Sql中的join

spark中的join 关联形式按照关联形式划分，数据关联分为内关联、外关联、左关联、右关联等等。对于参与的关联表来说，其关联形式决定的了数据的存在结果，所以选择关联形式，是由业务逻辑决定的。实

程sq
3年前
2.6k
4
评论

Hive：select count(distinct)优化以及hive.groupby.skewindata

好家伙，有一个Reduce Task执行了10个小时，另个一执行了近2小时，其余Reduce Task的执行时间很短。简而言之：SQL 中的 Group By 字段会决定某条数据最终落在哪一个 Reducer 上处理。其实 Hive 早就考虑到这个场景，并且贴心的提供了 h…

小柯_
5年前
3.5k
11
评论

Hive：select count(distinct)优化以及hive.groupby.skewindata

MySQL 为什么采用 B+树作为索引？5年经验程序员回答让我悟了

为什么MySQL的索引有那么多的数据结构可选，偏偏选树结构？为什么那么多的树结构？为什么又偏偏采用 B+ 树作为索引?

一颗剽悍的种子
3年前
34k
512
80

MySQL 为什么采用 B+树作为索引？5年经验程序员回答让我悟了

别再问我MySQL为啥没走索引？就这几种原因，全都告诉你

工作中，经常遇到这样的问题，我明明在MySQL表上面加了索引，为什么执行SQL查询的时候却没有用到索引？同一条SQL有时候查询用到了索引，有时候却没用到索引，这是咋回事？原因可能是索引失效了...

一灯架构
3年前
4.8k
24
3

别再问我MySQL为啥没走索引？就这几种原因，全都告诉你

面渣逆袭：MySQL六十六问，两万字+五十图详解！

大家好，我是三鸽，这期继续更新面渣逆袭系列，主角是MySQL。两万字+五十图，详解MySQL六十六问！

三分恶
3年前
20k
118
15