数仓-数据一致性

136 阅读1分钟

什么是数据一致性问题

一个概念在不同的业务中存在两种不同的解释或者表现,比如很简单的性别,在游戏部门性别男被定为1,女被定为0;商业化部门男被定为0,女被定为1.其实如果分析的数据相互隔离,也就是游戏业务只分析游戏部门的数据,商业化部门只分析商业化部门的数据,这种不一致也无所谓,但是现今的业务需求不可能只分析单个部门或者业务的数据。

数仓分析中的很多需求都是将不同的业务领域的业务过程或者同一业务领域下的不同业务过程合并起来分析,如果存在维度不一致的情况,那么就会导致分析的失败,这个失败问题最终肯定会解决,但是解决的过程其实已经导致了工作效率的降低。

为什么数据一致性很重要

上边其实也阐述了,保证维度一致性可以避免数据分析出错,提升工作效率,避免数据分析走弯路。

怎样解决数据一致性问题

1.共享维表,多个业务部门使用共同的维表

2.维度上卷,将不同业务的维度构建层次关系,保证某一个层次的维度能够完全包含在另一个维度中。

3.抽象共同维度,针对存在不一致情况的维度,可以吧一致的维度字段抽离,生成共同维表,交叉分析只放在具有共同维度的属性上面