Spark流水线数据探查组件

10 阅读2分钟

Spark流水线数据探查组件

1.Deequ简介

Deequ是AWS实验室开发的一款开源数据质量监控工具,它构建在Apache Spark之上,主要用于大规模数据集的质量验证。Deequ允许用户定义"数据质量约束",并自动计算指标来验证这些约束是否得到满足,从而帮助数据工程师和分析师确保其数据的正确性和完整性。

在数据从数据源抽取、转换并加载到数据仓库的ETL过程中,Deequ可以嵌入其中,对每一步的数据进行质量检查。例如,在数据抽取后检查数据的完整性,在转换过程中检查数据的一致性和准确性,确保只有符合质量要求的数据才能进入数据仓库,避免错误数据对后续数据分析和决策的影响。

2.探查字段

Spark流水线数据探查组件采用Deequ实现,可将任意节点输出的DataFrame数据集进行数据探查,字段如下:

字段名含义类型备注
columnName分析的列名StringType所有类型字段
completeness该列的完整性,取值范围在 0 到 1 之间,1 代表无缺失值。DoubleType所有类型字段
approximateNumDistinctValues该列不同值的近似数量LongType所有类型字段
dataType该列的数据类型StringType所有类型字段
typeCounts键为数据类型名称,值为该类型在列中出现的次数。MapType(StringType, LongType)所有类型字段
minimum该列的最大值DoubleType整形类型字段
maximum该列的最小值DoubleType整形类型字段
mean该列的平均值DoubleType整形类型字段
sum该列所有值的总和DoubleType整形类型字段
stdDev该列的标准差DoubleType整形类型字段
approxPercentiles该列的近似分位数StringType整形类型字段
minLength字符串列中最短字符串的长度IntegerType字符类型字段
maxLength字符串列中最长字符串的长度IntegerType字符类型字段

3. 集成演示

3.1 创建任务

  • 入口:通过顶部菜单栏选择 任务开发,或通过快捷入口 快速创建任务

  • 任务类型:选择 SparkPipeline

3.2 配置任务

点击任务名称,进入任务详情页。任务节点如下

使用MockData节点生成100条测试数据

使用DataProfiling探索数据

最后通过TableShow对探索结果可视化展示

3.3 运行任务

  • • 点击 运行 按钮启动任务

run.gif

table_show.png

🔗 平台体验地址:DataStudio (http://1.94.182.15:8090)