首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
云陌本尊
更多收藏集
微信扫码分享
微信
新浪微博
QQ
29篇文章 · 0订阅
Hive 系列(五)—— Hive 分区表和分桶表
Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的…
Hive分区表(static、dynamic)
简单理解分区表就是HDFS中文件夹分而治之,查询的时候可以进一步缩小数据搜索范围。 举个例子,订单表中承载了所有订单业务数据,由于单表查询数据压力很大,所以采用create_time字段作为分区标识,把当日的数据存在2020.06.11中,次日的数据则存储在2020.06.12…
Spark 2.4.0编程指南--Spark SQL UDF和UDAF
Spark2.4.0编程指南--SparkSQLUDF和UDAF更多资源github:https://github.com/opensourceteams/spark-scala-maven-2.4.
Hive 系列(五)—— Hive 分区表和分桶表
Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的…
干货丨时序数据库DolphinDB和TimescaleDB 性能对比测试报告
一、概述DolphinDBDolphinDB是以C++编写的一款分析型的高性能分布式时序数据库,使用高吞吐低延迟的列式内存引擎,集成了功能强大的编程语言和高容量高速度的流数据分析系统,可在数据库中进行
【Spark 内核】 Spark 内核解析-上
Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更
SparkCore-shuffleDetails-4
上一章里讨论了 job 的物理执行图,也讨论了流入 RDD 中的 records 是怎么被 compute() 后流到后续 RDD 的,同时也分析了 task 是怎么产生 result,以及 result 怎么被收集后计算出最终结果的。然而,我们还没有讨论数据是怎么通过 Shu…
HBase PageFilter踩坑之旅
有这样一个场景,在HBase中需要分页查询,同时根据某一列的值进行过滤。 不同于RDBMS天然支持分页查询,HBase要进行分页必须由自己实现。据我了解的,目前有两种方案, 一是《HBase权威指南》中提到的用PageFilter加循环动态设置startRow实现,详细见这里。…
Spark 系列(十五)—— Spark Streaming 整合 Flume
Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 在推送式方法 (Flume-style Push-based Ap…
一文带你理清Spark Core调优的方方面面
图非常的重要,是文章中最有价值的部分。如果不是很重要的图一般不会亲手画 此文会很大程度上借鉴美团的文章分享内容和Spark官方资料去进行说明,也会结合笔者自身的理解。 这里会直接一笔带过,不作详细的展开了,大家可以通过搜索引擎能找到它们的详细说明。我们用最直接的话来阐述 就如字…