这是我参与2022首次更文挑战的第26天,活动详情查看:2022首次更文挑战
本文主要介绍hive代码开发过程中需要遵守的规范。在实际的hive编程过程中一定要注意一些提前已经制定好的规范要求。
尤其是新入职的同学,很容易带着以往的开发习惯,创建表和写hql的时候,没有按照规范去书写,导致后续返工。
比如我们会设定哪些规范呢?
首先每一层的数据要求是统一的,层数一般自上而下包括了rpt、olap、dws、dwd,然后包括dim的基础属性层等等。
dwd是和业务层数据库的粒度保持一致,常常产品提出数据需求的话,也是针对dwd层的数据来的,所以产品一般会提供出dwd层涉及的表和字段。
然后是dws层,轻度汇总层,面向最细粒度的分析对象的单主题/跨主题的轻度汇总。
olap层就到了数据应用,面向应用分析展示多种粒度的数据集合。
除了层要统一之外,还有命名的规范。
常规是按照业务线+应用门户+主题+表来命名,包含了多种元素,可以一眼看懂这张表的含义是什么,可以做什么用。并且每一层的表名都是由这层的缩写做开头的,比如dws-业务线-主题-业务描述-更新方式。
字段命名需要注意的是容易产生歧义的字段名称需要区分开来,还有一些一词多用的情况和明确需要赋予字段业务含义的场景。
之前的文章有介绍过,对于一些常用字段该怎么命名。
比如时间类的可以加上time或者date结尾,编码类的就是id、code结尾,还有判别类的是is开头,还有包含了业务含义的比如order、name、age等等。
再就是一些配置文件的命名。
更新方式可以分为全量和增量。还有更新频率,包括了年、月、日、时、分、秒等。
其他包括代码编写规则、sql设计规范等等下一篇再说吧。