首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
用户1856816344202
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
18
文章 18
沸点 0
赞
18
返回
|
搜索文章
赞
文章( 18 )
沸点( 0 )
网易猛犸:数据质量漫谈
互联网是一个建立在数据之上的服务行业,数据质量的好坏直接影响到企业的生存能力和竞争力。如果数据质量不佳,便容易给企业带来以下危害: 接下来将介绍数据质量的评估维度,以及基于猛犸大数据平台的提高数据质量的方法,并讲解猛犸大数据平台数据质量的具体功能。 关于如何评估数据质量,业界有…
细品数据倾斜(建议收藏)
数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 话题比较大,技术要求也比较高,笔者尽最大的能…
Hive 系列(五)—— Hive 分区表和分桶表
Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从该分区去查找,而不是扫描整个表目录,合理的…
一文学完所有的Hive Sql(两万字最全详解)
lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral view在把结果组合,产…
新型列式存储格式 Parquet 详解
Apache Parquet 是 Hadoop 生态圈中一种新型列式存储格式,它可以兼容 Hadoop 生态圈中大多数计算框架 (Hadoop、Spark 等),被多种查询引擎支持 (Hive、Impala、Drill 等),并且它是语言和平台无关的。使用 Parquet 可以在一定程度上提高查询性能。
Hadoop 系列(一)—— 分布式文件系统 HDFS
HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 NameNode : 负责执行有关 文件系统命名空间 的操作,例如打开,关闭、重命名文件和目录等。它同时还负责…
Hadoop 大数据生态系统及常用组件
65% 的分析应用程序和先进分析工具都将基于 Hadoop 平台,作为主流大数据处理技术。一般数据量大 (多) 或者业务复杂的时候,常规技术无法及时、高效处理如此大量的数据,这时候可以使用 Hadoop
大数据概述_大数据生态系统
大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题 新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。 技术人员:有了问题,有了解决问题的技术,需要大量懂技术的人解决问题。 最佳实践:解决 问题的方法,途径有很多,寻找最好的解决…
Hive的数据存储格式
Hive支持的数据格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 左边图为逻辑表,右边第一个为行式存储,第二个为列式存储。 因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,每个字段的数据类型一定是相同的,列…
下一页
关注了
6
关注者
0
收藏集
1
关注标签
12
加入于
2021-08-20