数据认知

168 阅读6分钟

数据认知

数据类型

记录

事务数据

业务数据

心电图报告

日志数据

……

管理

元数据

技术元数据

业务元数据

管理元数据

操作元数据

主数据

商品主数据

用户主数据

……

参考数据

分析

维度

度量

……

记录类数据

事务数据

事务是数据库的处理数据的一个单元,可以理解为一次数据库CRUD的操作。事务数据就是记录数据库操作的系统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日志。

业务数据

业务数据就是为了完成业务流程而存储的业务操作类数据。就是业务系统的绝大多数表和数据。

日志数据

早期的日志数据是属于事务数据中的。现在大数据时代,用户访问数据变得越来越重要,所以单独分离出来。

元数据

元数据(Meta-data)是描述数据的数据。如何理解这句话?以小学课文《翠鸟》为例, 我告诉你这是一只翠鸟,如果你没见过翠鸟,你肯定无法理解翠鸟是个什么东西。但是如果是这样描述一下呢?

翠鸟喜欢停在水边的苇秆上,一双红色的小爪子紧紧地抓住苇秆。它的颜色非常鲜艳。头上的羽毛像橄榄色的头巾,绣满了翠绿色的花纹。背上的羽毛像浅绿色的外衣。腹部的羽毛像赤褐色的衬衫。它小巧玲珑,一双透亮灵活的眼睛下面,长着一张又尖又长的嘴。

上文在描述翠鸟,怎么描述的呢?从这几个方面:停在那儿、小爪子、颜色、头上的羽毛、背上的羽毛、腹部的羽毛、体型、眼睛、嘴。

同理,现在我告诉一个数字:175,你除了对175这个数字有比较确定的量化意义之外,也无法理解175具体代表了什么含义。但是如果是这样描述一下呢?

这样是不是就很清楚了?175的意思是:2020年统计的全国成年男性平均身高,该值的合理阈值是80-260cm,数据目前存在MySQL中,访问连接是XXXX,由国家统计局的张三在2020年1月1日创建,数据目前是公开的,很安全,质量经过多重确认无误的。

在描述175这个数据,用了哪些描述项呢?单位、指标、统计时间、统计范围、合理阈值、数据库、表、字段、接口、创建人、创建时间、数据权限、质量等级等等。这些都是在描述175这个数据。我们把描述175这个数据的其他数据称之为“元数据”。

当然,为了管理方便,我们同样还能将上述元数据进行归类:

与业务规则、流程相关的描述性数据,我们称之为业务元数据;

与存储、访问等技术底层的描述性数据,我们称之为技术元数据;

与数据操作相关的描述性数据,我们称之为操作元数据;

与数据管理相关的描述性数据,我们称之为管理元数据

元数据可以解决什么核心问题?

如上所述,元数据就是为了准确的描述我们拥有的所有数据。其核心的目的是降低人与数据之间的沟通成本。描述的越准确,我们使用数据的成本就越低。

主数据

主数据(Master Data)就是关于业务实体的数据。主数据是关键业务实体的最权威、最准确、价值最大的数据,用于建立交易闭环。其实Master Data翻译成“核心数据”可能会更合适,因此主数据也被称为“黄金数据”。这么说吧,其实阿里的One ID就是主数据理念的结果。

企业主数据(Master Data)是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据,并且存在于多个异构的应用系统中。

对于CRM客户管理系统来说,用户就是主数据;对于银行来说,卡bin码、开户行、账号、理财产品等都是主数据;对于生产企业,BOM表是主数据;对于二手房平台,房源信息是主数据。贝壳的楼盘字典就是典型的主数据,他们从2008年开始建设,持续了12年,投入了5、6亿。

主数据管理是指一整套的用于生成和维护企业主数据的规范、技术和方案,以保证主数据的完整性、一致性和准确性。

采集与集成、共享、数据质量、数据治理是主数据管理的四大要素,主数据管理要做的就是从企业外部和企业的多个业务系统中采集和整合最核心的、最需要共享的数据(主数据),集中进行数据的清洗和丰富,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据分发给全企业范围内需要使用这些数据的操作型应用和分析型应用,包括各个业务系统、业务流程和决策支持系统等。

主数据管理使得企业能够集中化管理数据,在分散的系统间保证主数据的一致性,改进数据合规性、快速部署新应用、充分了解客户、加速推出新产品的速度。从 IT 建设的角度,主数据管理可以增强 IT 结构的灵活性,构建覆盖整个企业范围内的数据管理基础和相应规范,并且更灵活地适应企业业务需求的变化。

  • 与人相关的:用户、客户、公民、病人、供应商、学生等;
  • 与物相关的:实体产品、虚拟产品(理财产品)、生产资料(BOM表)等;
  • 与场相关的:地址库、楼盘字典、POI信息等;
  • 与规则相关的:财务的账套等。

在传统IT企业,甲方公司的主数据可以立一个千万级的项目。国内也有很多公司专门做主数据这个行当。主数据的核心思想是全局唯一的标准数据。因此,主数据一般会完成以下工作:

  • 确定核心业务环节
  • 识别主数据
  • 定义和维护主数据匹配规则(代码规则、ID Mapping)
  • 建立及发布数据标准
  • 主数据的后续维护及更新