首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
数据仓库
光羽隼
创建于2023-10-21
订阅专栏
主要记录数仓相关的概念,知识点,以及自己对数仓的理解
暂无订阅
共7篇文章
创建于2023-10-21
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
数仓-数仓中使用哪种数据存储格式?ORC和Parquet的区别
数据存储格式有textFile,sequenceFile,ORC,Parquet等 ods层使用textFile存储格式,使用Gzip压缩格式。因为ods层数据量大,访问频率较高,为了数据读取的快,所
数仓-数仓0-1建设的过程
通过三步调研(业务调研、需求调研、数据调研),划分主题域 业务调研初步确定dw层主题域, 需求调研初步确定应用层主题域, 数据调研,整理现有数据源、数据字典,形成数据调研表,确定每张表所属的业务线,确
数仓-数仓分层 未完
什么是数仓分层 将源数据根据规则进行处理,并落到hive表中。 为什么要数仓分层 为了让数据链路更清晰,数据使用起来更方便,建立分层数仓,也可以避免重复计算的问题。 怎么做数仓分层 一般双分层分为4-
数仓-事实表相关
什么是事实表? 记录一个业务过程的表叫做事实表。 比如广告点击表,记录的就是一条广告被点击的业务过程。 事实表的作用 描述业务过程; 事实表都包含哪些类型? 事务型事实表: 周期型快照事实表 累计型快
数仓-数据一致性
什么是数据一致性问题 一个概念在不同的业务中存在两种不同的解释或者表现,比如很简单的性别,在游戏部门性别男被定为1,女被定为0;商业化部门男被定为0,女被定为1.其实如果分析的数据相互隔离,也就是游戏
数仓-关于数仓的基础概念
OLTP 传统的联机事务处理系统。尽最大可能减少冗余,包含增删改查操作,通常采用规范化的技术来设计数据模型 OLAP 联机分析处理系统,主要面临的是数据追加和数据查询分析。面对的是海量的数据,由于在数
数仓-谈谈你对数仓的理解,数仓为什么要分层
数仓是什么, 是用来干什么的?为什么要用到数仓?什么样的场景需要用到数仓?普通数仓和大数据数仓有什么区别