五. Apache Griffin UI界面化操作

2021-06-22 1,894 阅读3分钟

1. Apache Griffin 用户界面操作

Apache Griffin 是一种开源数据质量解决方案，适用于流式或批处理数据上下文中任何规模的分布式数据系统。

而且他还提供了基于Angular的界面化操作，可以更加便捷的手动设置源数据，目标数据，监测指标，结果展示等功能。

2. 过程

在这里插入图片描述登录系统后，可以按照以下步骤操作：

首先，创建一个新的度量。
然后，创建一个作业来定期处理该度量。
最后，热图和仪表板将显示度量的数据图。

2.1 数据源

单击右上角的“DataAssets”来查看数据资产

在这里插入图片描述此处可以查看所有的数据源

2.2 创建指标

通过单击“Measures”，然后选择“Create Measures”。可以使用该度量来处理数据并获得想要的结果。在这里插入图片描述主要有四种指标选项选择，分别是：

如果要测量源和目标之间的匹配程度，可选择准accuracy。
如果要检查数据的特定值（例如：空列数），请选择profiling。

目前 UI界面只支持创建accuracy measure。

2.2.1 Accuracy 在这里插入图片描述定义：衡量源数据和目标数据直接数据的匹配程度

Steps:

1.选择源数据选择要比较的源数据库和字段在这里插入图片描述 2.选择目标

选择要比较的目标数据库和字段在这里插入图片描述 3.映射source 和target

Step1：“Map To”：选择匹配source 和target 数据的规则。这里有 6 个选项可供选择： i. = : 两列的数据应该完全匹配。 ii. != : 两列的数据应该不同。 iii. > : target column 数据应大于source column数据。 iv. >= :target column 数据应大于或等于source column 数据。 v. < : target column 数据应小于source column数据。 vi. <= :target column 数据应小于或等于source column 数据。
Step2：“source fields”：选择要与target column进行比较的source column。

在这里插入图片描述 4.分区配置

为source数据集和target数据集设置分区配置。分区大小是指hive数据库最小数据单元，用于分割你要计算的数据

Done file path表示Done file path的格式在这里插入图片描述 5.配置

设置measure 所需的信息。 organization 是度量的组的含义，之后可以按组管理measure的仪表板。在这里插入图片描述 6.Measure 度量信息

创建新的准确度指标（accuracy measure）后，通过在列出的指标页面中选择它来检查已创建的度量（measure）在这里插入图片描述例如：

假设源表A有1000条记录，目标表B只有999条记录在选择的字段中与A完美匹配，那么准确率=999/1000*100%=99.9%。

2.3 Create Job

通过单击“Jobs”，然后选择“Create Job”。可以提交作业以定期执行度量（measure）

在这里插入图片描述目前，UI界面只支持简单的周期性度量工作（measure job）填写作业配置块。

作业名称：可以提交的作业设置作业名称。
度量名称：要安排的度量的名称。需要从之前创建的度量列表中选择它。
Cron Expression：调度器的cron表达式。例如：0 0/4 * * *。
开始：数据段开始时间与触发时间比较
End：数据段结束时间与触发时间比较。

提交作业后，Apache Griffin 会在后台调度作业，计算完成后，在监控仪表板上可以查看结果。

3.指标仪表盘

处理工作完成后，这里有3种方式来展示数据图。

1.单击“Health”，它会显示指标数据的热图（heatmap ）在这里插入图片描述 2.点击”DQ Metrics“ 可以看到指标的图标信息点击图表，可以获得它的放大图片，并了解所选时间窗口的指标。指标显示在页面右侧。通过单击度量，可以获得有关度量结果的图表和详细信息。