「这是我参与2022首次更文挑战的第19天,活动详情查看:2022首次更文挑战」
之前的文章都已经提到了指标在维度建模中的重要性,这是关系着事实表和维度表是否符合标准和广泛应用,并且能在业务长河中有效扩展使用。
在确定指标之前,我们需要明确几个指标的定义和口径。
业务口径指的是从业务角度描述指标的口径信息,比如某高校每年的招收的新生人数和毕业人数,这里就是业务口径描述出来的信息。
然后是口径时间,需要确定是按照统计时间还是业务时间,经常使用到的都是业务时间,比如每年,每天,每周,每月,或者是某一段时间区间,这都是根据业务实际发生的时间统计。另外一种就是统计时间,根据统计时间而不是业务时间的场景比如。
统计字段就是待统计计算的字段或者指标名称。限定条件就是计算该指标需限定的条件及内容。
如以每天4小时一次统计浙南地区的降雨量,这就是以统计时间为口径时间,统计降雨量,限定在浙南地区。
另外还有个计算口径,指的是一段完整的取数逻辑或者SQL。
统计字段:待统计或者待计算的具体字段,需和数据源中的字段名一致,示例:id、name 聚合逻辑:该部分为指标的计算统计逻辑,count(X),count(distinct X),sum(X) 更新方式:该部分为指标在时间维度上的限定方式,分区限定-频次限定-时间限定,示例:每日全量更新,2022年1月1日起 取数条件:该部分为该指标在取数逻辑上的限定方式 (1)限定条件需标记清楚被使用数据源中的字段名称,并且按照sql格式描述限定条件; (2)限定条件需以最小单元的方式呈现,不能高度复合或者笼统表达 (3)限定条件中内容必须枚举所有值
数据来源:通常包含在计算口径中,该指标所在的数据表或者该指标待计算字段所在的表。