五. Apache Griffin UI界面化操作

1,856 阅读3分钟

1. Apache Griffin 用户界面操作

Apache Griffin 是一种开源数据质量解决方案,适用于流式或批处理数据上下文中任何规模的分布式数据系统。

而且他还提供了基于Angular的界面化操作,可以更加便捷的手动设置源数据,目标数据,监测指标,结果展示等功能。

2. 过程

在这里插入图片描述 登录系统后,可以按照以下步骤操作:

  • 首先,创建一个新的度量。
  • 然后,创建一个作业来定期处理该度量。
  • 最后,热图和仪表板将显示度量的数据图。

2.1 数据源

单击右上角的“DataAssets”来查看数据资产

在这里插入图片描述 此处可以查看所有的数据源 在这里插入图片描述

2.2 创建指标

通过单击“Measures”,然后选择“Create Measures”。 可以使用该度量来处理数据并获得想要的结果。 在这里插入图片描述 主要有四种指标选项选择,分别是:

  • 如果要测量源和目标之间的匹配程度,可选择准accuracy。
  • 如果要检查数据的特定值(例如:空列数),请选择profiling。

目前 UI界面只支持创建accuracy measure。

2.2.1 Accuracy 在这里插入图片描述 定义: 衡量源数据和目标数据直接数据的匹配程度

Steps:

1.选择源数据   选择要比较的源数据库和字段 在这里插入图片描述 2.选择目标

   选择要比较的目标数据库和字段 在这里插入图片描述 3.映射source 和target

  • Step1:“Map To”:选择匹配source 和target 数据的规则。 这里有 6 个选项可供选择: i. = : 两列的数据应该完全匹配。 ii. != : 两列的数据应该不同。 iii. > : target column 数据应大于source column数据。 iv. >= :target column 数据应大于或等于source column 数据。 v. < : target column 数据应小于source column数据。 vi. <= :target column 数据应小于或等于source column 数据。
  • Step2:“source fields”:选择要与target column进行比较的source column。

在这里插入图片描述 4.分区配置

为source数据集和target数据集设置分区配置。 分区大小是指hive数据库最小数据单元,用于分割你要计算的数据

Done file path表示Done file path的格式 在这里插入图片描述 5.配置

设置measure 所需的信息。 organization 是度量的组的含义,之后可以按组管理measure的仪表板。 在这里插入图片描述 6.Measure 度量信息

创建新的准确度指标(accuracy measure)后,通过在列出的指标页面中选择它来检查已创建的度量(measure) 在这里插入图片描述 例如:

假设源表A有1000条记录,目标表B只有999条记录在选择的字段中与A完美匹配,那么准确率=999/1000*100%=99.9%。

2.3 Create Job

通过单击“Jobs”,然后选择“Create Job”。 可以提交作业以定期执行度量(measure)

在这里插入图片描述 目前,UI界面只支持简单的周期性度量工作(measure job) 在这里插入图片描述 在这里插入图片描述 填写作业配置块。

  • 作业名称:可以提交的作业设置作业名称。
  • 度量名称:要安排的度量的名称。 需要从之前创建的度量列表中选择它。
  • Cron Expression:调度器的cron表达式。 例如:0 0/4 * * *。
  • 开始:数据段开始时间与触发时间比较
  • End:数据段结束时间与触发时间比较。

提交作业后,Apache Griffin 会在后台调度作业,计算完成后,在监控仪表板上可以查看结果。

3.指标仪表盘

处理工作完成后,这里有3种方式来展示数据图。

1.单击“Health”,它会显示指标数据的热图(heatmap ) 在这里插入图片描述 2.点击”DQ Metrics“ 在这里插入图片描述 可以看到指标的图标信息 在这里插入图片描述 点击图表,可以获得它的放大图片,并了解所选时间窗口的指标。 在这里插入图片描述 指标显示在页面右侧。 通过单击度量,可以获得有关度量结果的图表和详细信息。 在这里插入图片描述