探讨Azure Purview的能力

336 阅读7分钟

在本文中,我们将探讨Azure Purview的能力,并通过实际演练来了解它。

简介

在一个典型的数据架构图中,垂直区域包括数据采集、数据整理和数据消费。这些主要领域包含了数据实践的不同组件,如数据库、数据管道、数据标准化、主数据管理、报告和仪表盘、数据匿名化等。但有一个组件跨越了所有这些组件,那就是数据目录,它是任何数据生态系统的中心。数据目录可以被认为是一个中央目录,它可以容纳数据字典、映射到数据定义的业务术语以及跨越数据生态系统中各个存储库的数据对象的元数据。

元数据检测和编目是数据目录最常见的用例,几乎在每个成熟的数据生态系统中都可以找到。当这种元数据定义的清单在属性层面上被注解加强时,它就采取了集中式数据字典的形式。这两种使用情况都是以实施为中心的,对技术用户直接有利。业务或功能用户也可以通过定义整个组织使用的业务术语或行业标准的术语来使用数据目录。数据管理员可以定义和维护这些术语词汇表,并将它们附加到各种数据对象和属性上,以便进行分类。数据目录的这一部分往往没有得到重视,也没有得到充分的利用。在数据目录中维护业务词汇表是至关重要的,特别是在多方业务中,有大量的类似业务术语,可能会造成混淆,从而导致数据差异的情况。

Azure Purview是Azure在云平台上提供的元数据目录。它提供了上面讨论的所有功能,包括定义业务术语的词汇表的能力。

Purview设置

要开始下面的练习,我们需要有一个Azure云账户,并具有管理Azure Purview服务的必要权限。假设已经有了这样一个账户。接下来,我们需要创建一个新的Azure Purview实例。导航到Azure Purview服务仪表板,点击创建按钮。它将调用一个新的账户创建向导,如下图所示。选择订阅名称和资源组,在其中创建Purview账户。为账户提供一个适当的名称和创建账户的位置。一旦完成,进入下一步。

image.png

在网络部分,我们可以继续使用默认选项,如下图所示。

image.png

在下一节中,我们需要配置容量单位。对于这个练习,我们也可以继续使用默认的最小容量。另一个需要注意的要点是C1复选框,该复选框与业务词汇表和世系可视化有关,因为我们打算使用业务词汇表功能。我们还需要提供管理资源组名称的细节,该资源组将用于创建与该Azure权限账户集成的其他对象。配置完成后,我们可以点击审查+创建按钮,创建Azure Purview账户的实例。审查必要的细节,然后点击创建按钮,创建一个新的Azure Purview账户。

image.png

新账户创建后,打开它,导航到Azure Purview的仪表板。它应该有一个名为Open Purview Studio的链接。这是一个控制台,我们可以从这里使用Azure Purview数据目录的不同功能。点击这个链接,它将在一个新的标签中打开,如下图所示。在下面的屏幕中,可以看到一些数据源和数据资产被列出。如果是一个全新的账户,这将被设置为零。在有些情况下,Azure Purview账户已经在使用,人们可能想在同一个账户中添加商业术语词汇表。在这种情况下,Azure Studio的主页将类似于下面所示的统计数据。

image.png

点击术语图标,打开术语词汇表的主页,如下图所示。默认情况下,这个页面不会有任何术语列出。假设我们是一个业务或职能用户,他的任务是创建一个术语列表或层次结构。我们将通过一个术语样本来了解如何创建不同的业务术语以及彼此之间的联系。

image.png

点击新术语按钮,它将打开一个新页面,如下图所示。首先,我们需要为术语的创建选择一个模板。默认情况下,系统模板是可用的,我们将使用它。更高级的用户也可以创建一个新的自定义模板,供一组用户使用。

image.png

在这一步,我们可以定义与术语定义有关的不同细节和与该术语有关的不同元数据属性。它分为三个部分,分别是概述、相关和联系。概述部分是默认的第一部分。比方说,我们打算创建一个名为客户的顶级术语。因此,我们将把这个术语的名称定为客户。我们可以为这个术语提供一个可选的业务或功能描述。这个业务术语可以被视为像主数据管理在跨数据存储库的数据标准化方面所做的那样。而不是数据,这里是数据对象中跨数据存储库使用的术语。虽然这里的定义是可选的,但建议强制定义,尽量清晰,因为在没有任何功能细节的情况下定义术语很可能会导致术语不被使用。由于这是一个顶层术语,这个字段的父级将是无。通常情况下,有许多类似于一个术语的业务术语在整个组织内使用。如下图所示,这些术语可以在缩略语部分被捕获。可能有一个wiki页面或不同的资源来详细解释一个客户的定义。这些资源也可以通过在 "资源 "部分添加资源的链接来引用。

image.png

在相关部分,我们可以添加同义词和相关术语。由于这是一个顶层术语,所以现在将是空白或无。

image.png

数据科学家、数据建模师或数据架构师有可能发起或推动该业务词汇表的创建。还有可能是数据管理员以及主题专家,他们可能专门负责定义与特定术语相关的业务背景。在这个部分,我们可以标记这些类型的用户,在需要时可以咨询他们。

image.png

点击 "创建"按钮来创建这个术语,一旦完成,它将如下图所示。

image.png 比方说,我们打算创建另一个名为 "参与 "的术语,这是一个与 "客户 "直接相关的子术语。使用上面解释的步骤,我们可以按照下面的方式添加它。在这里,我们将先前创建的术语Client指定为这个术语的父术语。当我们选择一个术语作为另一个术语的父术语时,该术语的正式名称默认会加上父术语,如下图所示。

image.png

在这个相关部分,我们可以指定术语Client与这个术语Engagement相关,如下图所示。由于我们没有任何其他与该术语同义的术语,我们将保持它们的空白。

image.png

一旦这两个术语被创建,它的层次结构将如下所示。这些术语处于草稿状态。

image.png 我们也可以通过编辑术语和选择所需的术语状态来改变这些术语的状态,在此基础上,用户可以选择如何使用这个术语对数据对象进行分类。

image.png

这样,我们就可以使用Azure Purview在数据目录中创建业务术语的词汇表,并将其用于数据分类和各种数据目录的编制。

结语

在这篇文章中,我们了解了数据编目以及业务词汇表的意义。我们学习了如何创建Azure Purview账户,创建业务术语以及将这些术语相互关联,以便有效地用于数据目录中的元数据管理。