title: DataHub元数据管理之Metadata Aspect介绍
date: 2022-05-22 10:06:45
tags: [datahub, metadata]
categories: datahub
datahub中有很多概念,今天我们来说说最基本的元数据概念:metadata aspect,国内关于datahub的文章很少,于是我就自己去找外文翻译、了解,后续跟大家讲解entity MXE MCE MAE GMS GMA等。
什么是Metadata Aspect?
一个Metadata Aspect是结构化的文档,更准确地说是PDL中的一个 record ,这代表了一种元数据(ownership,schema,statistics, upstreams。。)
Metadata Aspect自己是没有任何含义的,必须与一个具体的实体关联起来,我们故意不强加模型需求到aspect上,因为每个aspect之间差异显著。
Metadata Aspect设计时是不可更改的,所以每次对一个aspect的更改,都有一个新的版本出现在结果集中。更改一个可选的保留策略x,可以保留最近的几个版本,将x设置为1的话,表示aspect是没有版本概念的。也可以基于时间设置保留策略,比如保留30天内的aspect。
然而,一个Metadata Aspect可以设置得很复杂,比如多层嵌套。有时,我们希望将一个庞大的aspect拆分为许多个小的独立的aspect,这将带来如下优势:
- 更快地读写
因为aspect是不可更改的,每次更新都会导致更改整个aspect,写道数据库中,同样的,读操作也需要检索整个aspect,尽管你只对aspect其中一小部分内容感兴趣;
- 不同aspect有独立的版本
例如,有人想要在一个数据集中,获取所有的 ownership metadata 的改变记录,和所有的 schema metadata的改变记录,他们俩是分开的。
- 帮助rest.li终端模型
模型操作需要rest.li和aspect 1:1的要求,他会遵循这个样式,意味着会有更小的,原子化的终端而不是巨大的。
好了,今天就到这里。
我是Lee,每天进步一点点。