DataHub元数据管理之Metadata Aspect介绍

691 阅读2分钟
title: DataHub元数据管理之Metadata Aspect介绍
date: 2022-05-22 10:06:45 
tags: [datahub, metadata] 
categories: datahub

datahub中有很多概念,今天我们来说说最基本的元数据概念:metadata aspect,国内关于datahub的文章很少,于是我就自己去找外文翻译、了解,后续跟大家讲解entity MXE MCE MAE GMS GMA等。

什么是Metadata Aspect?

一个Metadata Aspect是结构化的文档,更准确地说是PDL中的一个 record ,这代表了一种元数据(ownership,schema,statistics, upstreams。。)

Metadata Aspect自己是没有任何含义的,必须与一个具体的实体关联起来,我们故意不强加模型需求到aspect上,因为每个aspect之间差异显著。

Metadata Aspect设计时是不可更改的,所以每次对一个aspect的更改,都有一个新的版本出现在结果集中。更改一个可选的保留策略x,可以保留最近的几个版本,将x设置为1的话,表示aspect是没有版本概念的。也可以基于时间设置保留策略,比如保留30天内的aspect。

然而,一个Metadata Aspect可以设置得很复杂,比如多层嵌套。有时,我们希望将一个庞大的aspect拆分为许多个小的独立的aspect,这将带来如下优势:

  1. 更快地读写

            因为aspect是不可更改的,每次更新都会导致更改整个aspect,写道数据库中,同样的,读操作也需要检索整个aspect,尽管你只对aspect其中一小部分内容感兴趣;

  1. 不同aspect有独立的版本

            例如,有人想要在一个数据集中,获取所有的 ownership metadata 的改变记录,和所有的 schema metadata的改变记录,他们俩是分开的。

  1. ​帮助rest.li终端模型

            模型操作需要rest.li和aspect 1:1的要求,他会遵循这个样式,意味着会有更小的,原子化的终端而不是巨大的。

好了,今天就到这里。

我是Lee,每天进步一点点。