hive编程规范

432 阅读2分钟

这是我参与2022首次更文挑战的第26天,活动详情查看:2022首次更文挑战

本文主要介绍hive代码开发过程中需要遵守的规范。在实际的hive编程过程中一定要注意一些提前已经制定好的规范要求。

尤其是新入职的同学,很容易带着以往的开发习惯,创建表和写hql的时候,没有按照规范去书写,导致后续返工。

比如我们会设定哪些规范呢?

首先每一层的数据要求是统一的,层数一般自上而下包括了rpt、olap、dws、dwd,然后包括dim的基础属性层等等。

dwd是和业务层数据库的粒度保持一致,常常产品提出数据需求的话,也是针对dwd层的数据来的,所以产品一般会提供出dwd层涉及的表和字段。

然后是dws层,轻度汇总层,面向最细粒度的分析对象的单主题/跨主题的轻度汇总。

olap层就到了数据应用,面向应用分析展示多种粒度的数据集合。

除了层要统一之外,还有命名的规范。

常规是按照业务线+应用门户+主题+表来命名,包含了多种元素,可以一眼看懂这张表的含义是什么,可以做什么用。并且每一层的表名都是由这层的缩写做开头的,比如dws-业务线-主题-业务描述-更新方式。

字段命名需要注意的是容易产生歧义的字段名称需要区分开来,还有一些一词多用的情况和明确需要赋予字段业务含义的场景。

之前的文章有介绍过,对于一些常用字段该怎么命名。

比如时间类的可以加上time或者date结尾,编码类的就是id、code结尾,还有判别类的是is开头,还有包含了业务含义的比如order、name、age等等。

再就是一些配置文件的命名。

更新方式可以分为全量和增量。还有更新频率,包括了年、月、日、时、分、秒等。

其他包括代码编写规则、sql设计规范等等下一篇再说吧。