首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
用户1856816344202
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
18
文章 18
沸点 0
赞
18
返回
|
搜索文章
用户1856816344202
赞了这篇文章
网易数帆
开发者 @网易
·
7年前
关注
网易猛犸:数据质量漫谈
互联网是一个建立在数据之上的服务行业,数据质量的好坏直接影响到企业的生存能力和竞争力。如果数据质量不佳,便容易给企业带来以下危害: 接下来将介绍数据质量的评估维度,以及基于...
2
评论
分享
用户1856816344202
关注了
已注销
用户1856816344202
关注了
编程加码卡农
用户1856816344202
关注了
青Cheng序员石头
用户1856816344202
关注了
用户112986583106
用户1856816344202
关注了
mason技术记录
用户1856816344202
赞了这篇文章
爱Rap篮球写代码的蔡徐
复制粘贴工程师
·
5年前
关注
细品数据倾斜(建议收藏)
数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:...
9
评论
分享
用户1856816344202
赞了这篇文章
zed
5年前
关注
Hive 系列(五)—— Hive 分区表和分桶表
Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在...
3
1
分享
用户1856816344202
赞了这篇文章
五分钟学大数据
大数据工程师 @公众号:五分钟学大数据
·
4年前
关注
一文学完所有的Hive Sql(两万字最全详解)
lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首...
28
评论
分享
用户1856816344202
赞了这篇文章
lzslbd
8年前
关注
新型列式存储格式 Parquet 详解
Apache Parquet 是 Hadoop 生态圈中一种新型列式存储格式,它可以兼容 Hadoop 生态圈中大多数计算框架 (Hadoop、Spark 等),被多种查询...
17
2
分享
用户1856816344202
赞了这篇文章
heibaiying
所有文章都分类整理至 GitHub:https://gi
·
6年前
关注
Hadoop 系列(一)—— 分布式文件系统 HDFS
HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。 Na...
20
1
分享
用户1856816344202
赞了这篇文章
cloudwiseAPM
Marketing @云智慧
·
8年前
关注
Hadoop 大数据生态系统及常用组件
65% 的分析应用程序和先进分析工具都将基于 Hadoop 平台,作为主流大数据处理技术。一般数据量大 (多) 或者业务复杂的时候,常规技术无法及时、高效处理如此大量的数据...
23
1
分享
用户1856816344202
赞了这篇文章
真情流露
学生
·
5年前
关注
大数据概述_大数据生态系统
大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题 新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。 技术人员:有了问题...
2
评论
分享
用户1856816344202
赞了这篇文章
总要回家
大数据开发
·
4年前
关注
Hive的数据存储格式
Hive支持的数据格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 左边图为逻辑表,右边第一个为行式存储,第二个为列式存储。 因为每个字段...
4
评论
分享
用户1856816344202
赞了这篇文章
华为云开发者联盟
4年前
关注
收藏!数据建模最全知识体系解读
数据建模乍一听的时候感觉非常的有技术性,并且外行感觉非常的高大上,高深莫测。 数据建模简单来说就是基于对业务的理解,将各种数据进行整合和关联,并最终使得这些数据可用性,可读...
12
评论
分享
用户1856816344202
赞了这篇文章
数澜科技
@数澜科技
·
6年前
关注
「数据治理那点事」系列之二:手握数据「户口本」,数据治理肯定稳!
如果我说:元数据(Meta Data),就是描述数据的数据。没有技术背景加持的路人粉看到这句「绕口令」,内心可能会浮现这样的想法: 简单点,其实元数据相当于数据的户口本。 ...
2
评论
分享
用户1856816344202
赞了这篇文章
宜信技术学院
宜信技术编辑 @宜信
·
6年前
关注
十步法原则解决数据质量问题
数据的一组固有属性满足数据消费者要求的程度。 正确的,数据是现实世界的真实反映。 数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能...
6
评论
分享
用户1856816344202
赞了这篇文章
芊宝宝
6年前
关注
基于MaxCompute的数仓数据质量管理
本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导。 《大数据之路——阿里巴巴大数据实践》——阿里巴巴数据技术及产品部 著。 数据对一个企业来说已经是一项重要...
1
评论
分享
用户1856816344202
赞了这篇文章
爱斯基摩人
5年前
关注
如何保障大数据质量?
及时性:数据需要及时产出,一般离线系统需要看到前一天的数据,实时系统要求更高。 主要是对数据进行资产等级划分,高等级资产代表对报表质量准确性,风险性要求较高,甚至可能给公司...
1
评论
分享
下一页
关注了
6
关注者
0
收藏集
1
关注标签
12
加入于
2021-08-20