OLTP
传统的联机事务处理系统。尽最大可能减少冗余,包含增删改查操作,通常采用规范化的技术来设计数据模型
OLAP
联机分析处理系统,主要面临的是数据追加和数据查询分析。面对的是海量的数据,由于在数据查询过程中性能的瓶颈在于数据表的join操作,所以在数据模型设计的过程中采用反规范化的处理,操作包含将多个维度属性尽量存放在同一张维度表;退化维度等
ETL
Extract-Transform-Load,用于描述将数据从来源端经过抽取,转换,加载到目的端的过程。
宽表
含义:指字段呢比较多的数据库表,通常指业务主体相关的指标,维度,属性关联在一起的数据库表。
缺点:数据有大量的冗余,一张宽表中包含有几十几百个字段。
优点:查询的时候便捷,查询性能高,不用进行多余的join操作。
宽表多用于数据分析,数据挖掘模型训练前的数据准备,通过把相关字段放在同一张表中,可以大大提升数据挖掘模型训练过程中迭代计算的消息问题。
主题
是一个抽象的概念,是在较高层次上将企业信息系统中的数据进行综合,归类和分析利用的一个概念。每一个主题基本上对应一个宏观的分析领域。 比如销售,游戏用户时长等。
事实表
事实表描述业务过程,表中的每一条数据都代表了一个完整的业务过程。
事实表分为事物事实表,周期型快照事实表,累计型快照事实表。
事实表构建流程:选择业务过程-确定粒度-选择维度-选择事实
维度表
维度表中存放的是维度数据,比如时间,地点,用户姓名,身份证号等等信息就算是维度。
维度是分析业务过程中的环境信息,维度表的列值被称为维度属性。
维度属性通常被用来作为分析的过滤、排序、聚合的条件。
维度表构建流程:确定维度全局唯一-确定维度主键(用户id:自然键,自增主键:代理键)-确定主维表与主维表属性-确定相关维表和相关维表属性
维度表中有退化维度概念,缓慢变化维概念
粒度
用于确定某一事实表中的行表示什么,是业务最小活动单元或者不同维度组合,即业务细节程度。 比如游戏曝光事实表中,一行数据就是用户、游戏维度的一条曝光数据
维度建模
由Kimball提出,该建模理论安数据组织类型划分为星型模型,雪花模型,星座模型
指标
这个概念更偏向于需求了,比如roi(投入产出比),7日收入数据等等,都是指标。指标是在某个维度上的事实的计算。投入产出比你要明确是什么维度上的投入产出,比如某款游戏,某个渠道等。
指标又分为原子指标,派生指标,衍生指标
三种指标的关系会单独写一下。