〔从零搭建〕数据质量平台部署指南

358 阅读5分钟

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨杭州奥零数据科技官网:www.aolingdata.com

✨AllData开源项目:github.com/alldatacent…

✨Gitee组织:gitee.com/alldatacent…

摘要:AllData数据中台数据质量平台(DataVines)是一款自动化数据质量检测与治理工具。能定时获取数据源元数据构建数据目录,生成数据概览报告,帮助用户快速理解数据分布和变化趋势,为数据治理提供决策依据,保障数据质量。文章内容主要为以下四部分:

一、在线演示环境

二、功能简介

三、源码编译部署安装

四、访问数据质量平台页面

💡Tips:关注「公众号」大数据商业驱动引擎

在线演示环境.jpg

🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/

请联系市场总监获取账号密码

官网主页.jpg

访问数据质量平台页面.jpg

2.1 数据质量平台基于开源项目DataVines建设 

数据质量平台(DataVines)是一款自动化数据质量检测与治理工具。

支持字段完整性、格式合规性、数值阈值等百余类校验规则,可构建动态监测体系,实时扫描表、字段级数据波动,依托智能阈值算法对延迟、重复、逻辑矛盾等问题毫秒级预警。

同时,数据质量平台能定时获取数据源元数据构建数据目录,生成数据概览报告,帮助用户快速理解数据分布和变化趋势,为数据治理提供决策依据,保障数据质量。

🔹DataVines开源项目:github.com/datavane/da…

🔹DataVines文档地址:datavane.github.io/datavines-w…

 2.2 数据质量平台功能特点:

  • 全流程质量闭环管控
  • 灵活规则引擎
  • 动态监测体系
  • 智能阈值算法
  • 多数据源支持
  • 深度定制与扩展
  • 内置多种检查规则
  • 元数据管理
  • 问题处理功能

源码编译部署安装.jpg

💡部署步骤:

部署安装.jpg

 3.1 环境准备 

🔹软件环境:

  • Git:用于克隆项目代码,确保能够顺利执行git clone命令。
  • JDK:版本需大于等于8,为项目运行提供Java环境支持。
  • Maven:版本需大于等于3.6.0,用于项目的顺利打包。
  • MySQL:版本需大于等于5.7,作为DataVines的元数据存储数据库。

🔹硬件资源:

  • 根据预计的数据量和业务负载,准备足够的服务器资源,包括CPU、内存和磁盘空间。

3.2 获取源码 

🔹版本选择:建议使用与AIIData商业版兼容的DataVines版本。

carbon-1.png

3.3 编译构建

🔹数据库初始化:

  • 启动MySQL数据库并创建新数据库,例如命名为Datavines

  • script/sql/datavines-mysql.sql下的SQL文件直接在MySQL中运行,完成数据库初始化。

🔹源码编译:

  • 如果使用MySQL数据库,需修改pom.xml文件,将mysql-connector-java依赖的scope改为compile。使用PostgreSQL则不需要此操作。
  • 运行如下命令进行项目构建打包:

carbon-2.png

3.4 部署及运行配置 --选择Java8,DataVines进行源码编译打包:

选择Java8.png

--获得部署安装包:

获得部署安装包-1.png

3.5 部署及运行配置 --解压安装包:

  • 对构建生成的部署包进行解压,例如:

carbon-3.png

--编辑配置信息:

  • 进入conf目录,编辑application.yaml文件,修改数据库信息,例如:

carbon-4.png carbon-5.png

--启动服务:

  • 进入bin目录,执行启动命令:
  • 在浏览器中输入服务器IP和端口(默认5600),例如http://服务器IP:5600,跳转至登录界面,输入默认账号密码(可联系AllData市场总监/技术同事获取账号密码)。

carbon-6.png

3.6 可选配置 

🔹数据源配置:

  • 进入首页后,点击右上角创建数据源按钮,输入数据源的名称,然后选择数据源类型(如MySQL)。
  • 输入MySQL的连接信息,点击测试连接按钮,如果成功则单击保存。

🔹作业管理:

  • 进入数据源,找到作业管理页面。

  • 点击创建规则作业按钮,选择数据质量作业,进入规则的配置页面。

  • 进行规则配置,例如选择枚举值[不在]检查规则,依次选择数据库、表和列,输入枚举数组[0,1]进行期望值配置(如果没有期望值则选择无),构成【实际值 > 10】公式,公式成立时表示检查结果为成功,否则是失败。

  • 完成配置后点击保存并运行来执行检查作业。

🔹结果查看:

  • 在作业列表找到刚刚创建并执行的检查作业,点击执行记录页面,可以看到执行历史列表。

  • 点击日志按钮,可以看到规则执行的日志信息;点击结果按钮,可以看到规则执行的检查结果;点击错误数据按钮,可以看到规则执行的错误数据。

访问数据质量平台页面.jpg

4.1 数据质量平台-功能概览  1_功能概览.jpg

4.2 数据源管理 

  • 数据源管理功能支持多源数据接入,统一管理数据源实例,保障数据集成与质量监控的基础稳定性。

2_数据源管理.jpg

4.3 创建数据源  3_创建数据源.jpg

4.4 编辑数据源  4_编辑数据源.jpg

4.5 质量大盘 

  • 质量大盘全局监控数据质量,实时展示关键指标与异常波动,助力快速决策。

5_质量大盘.jpg

4.6 数据质量平台-日志

6_数据质量平台-日志.jpg

4.7 数据目录 

  • 可自动构建数据资产视图,实时追踪数据分布与变化趋势。

6_数据质量平台-日志.jpg

4.8 新增标签  8_新增标签.jpg

4.9 作业管理-数据质量作业

  • 支持自定义规则校验,自动化调度执行,实时监控与修复数据质量问题。

9_作业管理-数据质量作业.jpg

4.10 运行成功  10_运行成功.jpg

4.11 编辑作业-作业配置  11_编辑作业-作业配置.jpg

4.12 定时任务配置  12_定时任务配置.jpg

4.13 SLA配置  13_SLA配置.jpg

4.14 配置文件  14_配置文件.jpg

4.15 脚步预览  15_脚步预览.jpg

4.16 执行记录 16_执行记录.jpg

**4.17 日志 ** 17_日志.jpg

4.18 检查结果  18_检查结果.jpg

4.19 查看错误数据  19_查看错误数据.jpg

4.20 作业管理-数据比对作业 

  • 支持多源异构数据精准比对,自动识别差异并生成报告,保障数据一致性。

20_作业管理-数据比对作业.jpg

4.21 作业执行记录 21_作业执行记录.jpg

4.22 告警管理-SLA管理 22_告警管理-SLA管理.jpg

4.23 创建SLA 23_创建SLA.jpg

4.24 关联规则作业-TestSLA-用于监控TestSLA相关数据的SLAS 24_关联规则作业-TestSLA-用于监控TestSLA相关数据的SLAS.jpg

4.25 通知管理  25_通知管理.jpg

4.26 添加管理 26_添加通知.jpg

4.27 错误数据管理-存储管理 27_错误数据管理-存储管理.jpg

4.28 创建错误数据存储 28_创建错误数据存储.jpg

4.29 编辑  29_编辑.jpg

4.30 用户管理  30_用户管理.jpg

4.31 邀请用户 31_邀请用户.jpg

4.32 标签管理

  • 支持自定义数据标签体系,实现数据分类与快速检索,提升数据资产的可理解性和利用效率。

32_标签管理.jpg

4.33 新增标签 33_新增标签.jpg

4.34 参数管理 34_参数管理.jpg

4.35 创建参数 35_创建参数.jpg