1. Apache Griffin 用户界面操作
Apache Griffin 是一种开源数据质量解决方案,适用于流式或批处理数据上下文中任何规模的分布式数据系统。
而且他还提供了基于Angular的界面化操作,可以更加便捷的手动设置源数据,目标数据,监测指标,结果展示等功能。
2. 过程
登录系统后,可以按照以下步骤操作:
- 首先,创建一个新的度量。
- 然后,创建一个作业来定期处理该度量。
- 最后,热图和仪表板将显示度量的数据图。
2.1 数据源
单击右上角的“DataAssets”来查看数据资产
此处可以查看所有的数据源
2.2 创建指标
通过单击“Measures”,然后选择“Create Measures”。 可以使用该度量来处理数据并获得想要的结果。
主要有四种指标选项选择,分别是:
- 如果要测量源和目标之间的匹配程度,可选择准accuracy。
- 如果要检查数据的特定值(例如:空列数),请选择profiling。
目前 UI界面只支持创建accuracy measure。
2.2.1 Accuracy
定义: 衡量源数据和目标数据直接数据的匹配程度
Steps:
1.选择源数据
选择要比较的源数据库和字段
2.选择目标
选择要比较的目标数据库和字段
3.映射source 和target
- Step1:“Map To”:选择匹配source 和target 数据的规则。 这里有 6 个选项可供选择: i. = : 两列的数据应该完全匹配。 ii. != : 两列的数据应该不同。 iii. > : target column 数据应大于source column数据。 iv. >= :target column 数据应大于或等于source column 数据。 v. < : target column 数据应小于source column数据。 vi. <= :target column 数据应小于或等于source column 数据。
- Step2:“source fields”:选择要与target column进行比较的source column。
4.分区配置
为source数据集和target数据集设置分区配置。 分区大小是指hive数据库最小数据单元,用于分割你要计算的数据
Done file path表示Done file path的格式
5.配置
设置measure 所需的信息。
organization 是度量的组的含义,之后可以按组管理measure的仪表板。
6.Measure 度量信息
创建新的准确度指标(accuracy measure)后,通过在列出的指标页面中选择它来检查已创建的度量(measure)
例如:
假设源表A有1000条记录,目标表B只有999条记录在选择的字段中与A完美匹配,那么准确率=999/1000*100%=99.9%。
2.3 Create Job
通过单击“Jobs”,然后选择“Create Job”。 可以提交作业以定期执行度量(measure)
目前,UI界面只支持简单的周期性度量工作(measure job)
填写作业配置块。
- 作业名称:可以提交的作业设置作业名称。
- 度量名称:要安排的度量的名称。 需要从之前创建的度量列表中选择它。
- Cron Expression:调度器的cron表达式。 例如:0 0/4 * * *。
- 开始:数据段开始时间与触发时间比较
- End:数据段结束时间与触发时间比较。
提交作业后,Apache Griffin 会在后台调度作业,计算完成后,在监控仪表板上可以查看结果。
3.指标仪表盘
处理工作完成后,这里有3种方式来展示数据图。
1.单击“Health”,它会显示指标数据的热图(heatmap )
2.点击”DQ Metrics“
可以看到指标的图标信息
点击图表,可以获得它的放大图片,并了解所选时间窗口的指标。
指标显示在页面右侧。 通过单击度量,可以获得有关度量结果的图表和详细信息。