首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
面试
订阅
yimi2020
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
美团DB数据同步到数据仓库的架构与实践
在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后…
【漫谈数据仓库】 如何优雅地设计数据分层
本文主要讲解数据仓库的一个重要环节:如何设计数据分层!其它关于数据仓库的内容可参考之前的文章。本文对数据分层的讨论适合下面一些场景,超过该范围场景 or 数据仓库经验丰富的大神就不必浪费时间看了。
数据仓库的建设方法篇
数据散落在企业各部门应用的数据存储中,它们之间有着复杂的业务连接关系,从整体上看就如一张巨大的蜘蛛网:结构上错综复杂,却又四通八达。在企业级数据应用上单一业务使用方便,且灵活多变;但涉及到跨业务、多部门联合应用就会存在:①数据来源多样化,管理决策数据过于分散;②数据缺乏标准,难…
Hive 入门
压缩:GZIP,LZO,Snappy,Bzip2... hive.exec.reducers.bytes.per.reducer 这个参数控制一个job会有多少个reducer来处理,依据的是输入文件的总大小。默认1GB。(即每个reduce任务处理的数据量。) hive.ex…
你真的懂hive窗口函数吗,如何开窗聚合?
目录1窗口函数Windowingfunctions2OVER详解TheOVERclause2.1标准聚合函数2.2分析函数Analyticsfunctions2.3OVER子句也支持聚合函数2.4wi
Hive性能优化小结
在工作中使用hive比较多,也写了很多HiveQL。这里从三个方面对Hive常用的一些性能优化进行了总结。表设计层面优化利用分区表优化分区表是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个
Hive优化的十大方法
Hive用的好,才能从数据中挖掘出更多的信息来。用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。Hive在极大数据或者数据不平衡等情况下,表现往往一般,因此
一文带你认清数据仓库「维度模型设计」与「分层架构」
1. 纬度建模基本概念 维度模型是数据仓库领域大师Ralph Kimall所倡导,它的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复…
数据仓库学习笔记(一)
正常流向:ODS>DWD->DWT->DWA->APP,当出现ODS >DWD->DWA->APP这种关系时,说明主题域未覆盖全。应将DWD数据落到DWT中,对于使用频度非常低的表允许DWD->DWA。 尽量避免出现DWA宽表中使用DWD又使用(该DWD所归属主题域)DWT的表…
Hive SQL 编译 MapReduce
Hive 是基于 Hadoop 的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于 Hive 搭建,每天执行近万次的 Hive ETL 计算流程,负责每天数百 GB 的数据存储和分析。Hive 的稳定性和性能对我们的数据分析非常关键。 在几次升级 Hive 的过…