大数据 - 云陌本尊的收藏集 - 掘金

大数据

更多收藏集

29篇文章 · 0订阅

Hive 系列（五）—— Hive 分区表和分桶表

Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的…

zed
5年前
1.1k
3
1

Hive分区表（static、dynamic）

简单理解分区表就是HDFS中文件夹分而治之，查询的时候可以进一步缩小数据搜索范围。举个例子，订单表中承载了所有订单业务数据，由于单表查询数据压力很大，所以采用create_time字段作为分区标识，把当日的数据存在2020.06.11中，次日的数据则存储在2020.06.12…

XinXing
5年前
3.2k
2
评论

Spark 2.4.0编程指南--Spark SQL UDF和UDAF

Spark2.4.0编程指南--SparkSQLUDF和UDAF更多资源github:https://github.com/opensourceteams/spark-scala-maven-2.4.

朝阳GAI爷
7年前
413
2
评论

Hive 系列（五）—— Hive 分区表和分桶表

Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的…

heibaiying
6年前
5.1k
1
评论

干货丨时序数据库DolphinDB和TimescaleDB 性能对比测试报告

一、概述DolphinDBDolphinDB是以C++编写的一款分析型的高性能分布式时序数据库，使用高吞吐低延迟的列式内存引擎，集成了功能强大的编程语言和高容量高速度的流数据分析系统，可在数据库中进行

DolphinDB
5年前
1.6k
点赞
评论

【Spark 内核】 Spark 内核解析-上

Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等，熟练掌握Spark内核原理，能够帮助我们更

开发实习生
6年前
2.5k
5
评论

SparkCore-shuffleDetails-4

上一章里讨论了 job 的物理执行图，也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的，同时也分析了 task 是怎么产生 result，以及 result 怎么被收集后计算出最终结果的。然而，我们还没有讨论数据是怎么通过 Shu…

fengye
7年前
490
4
评论

HBase PageFilter踩坑之旅

有这样一个场景，在HBase中需要分页查询，同时根据某一列的值进行过滤。不同于RDBMS天然支持分页查询，HBase要进行分页必须由自己实现。据我了解的，目前有两种方案，一是《HBase权威指南》中提到的用PageFilter加循环动态设置startRow实现，详细见这里。…

做个好人君
8年前
3.6k
9
评论

Spark 系列（十五）—— Spark Streaming 整合 Flume

Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。在推送式方法 (Flume-style Push-based Ap…

heibaiying
6年前
2.2k
点赞
2

一文带你理清Spark Core调优的方方面面

图非常的重要，是文章中最有价值的部分。如果不是很重要的图一般不会亲手画此文会很大程度上借鉴美团的文章分享内容和Spark官方资料去进行说明，也会结合笔者自身的理解。这里会直接一笔带过，不作详细的展开了，大家可以通过搜索引擎能找到它们的详细说明。我们用最直接的话来阐述就如字…

说出你的愿望吧
5年前
4.0k
61
4