引言
持续性工作:数据质量管理、数据治理、整体数据管理
业务驱动因素
目标和原则
数据质量管理原则:
1)重要性
2)全生命周期管理
3)预防
4)根因修正
5)治理
6)标准驱动
7)客观测量、透明度
8)嵌入业务流程
9)系统强制执行
10)与服务水平关联
基本概念
1.数据质量
2.关键数据
因行业而异,评估关键数据要求:
1)监管报告
2)财务报告
3)商业政策
4)持续经营
5)商业战略,差异化竞争战略
3.数据质量维度
最具影响力人物:
1)Strong-Wang
2)Thomas Redman
3)Larry English
数据质量6个核心维度(DAMA UK白皮书):
1)完备性
2)唯一性
3)及时性
4)有效性
5)准确性
6)一致性
常见数据质量维度:
7)完整性
8)合理性
对质量有影响的特征:
1)可用性usability
2)时间问题timing issues
3)灵活性flexibility
4)置信度confidence
5)价值value
4.数据质量、元数据
5.数据质量ISO标准
6。数据质量改进生命周期
1)计划plan
2)执行do
3)检查chack
4)处理act
新周期开始于:
1)现有测量值低于阈值
2)新数据集正在调查中
3)对现有数据集提出新的数据质量要求
4)业务规则、标准、期望变更
7.数据质量业务规则类型
8.数据质量问题的常见原因
(1)缺乏领导力
有管理数据质量的障碍:
1)领导、员工缺乏意识
2)缺乏治理
3)缺乏领导力、管理能力
4)难以证明改进的合理性
5)测量价值的工具不合适、不起作用
(2)数据输入过程引起
(3)数据处理功能引起
(4)系统设计引起
(5)解决问题引起
9.数据剖析data profiling
用于检查数据、评估质量的数据分析;
使用统计技术来发现数据集合的真实结构、内容、质量。
剖析引擎生成的统计信息:
1)空值数
2)最大/最小值
3)最大/最小长度
4)单个列值的频率分布
5)数据类型、格式
10.数据质量、数据处理
数据质量改进的重点:防止错误
(1)数据清理
1)实施控制,防止数据输入错误
2)纠正源系统中的数据
3)改进数据录入的业务流程
(2)数据增强
(3)数据解析、格式化
(4)数据转换、标准化
活动
定义高质量数据
定义数据质量战略
识别关键数据、业务规则
执行初始数据质量评估
识别改进方向,确定优先排序
定义数据质量改进目标
开发、部署数据质量操作
1.管理数据质量规则
2.测量、监控数据质量
3.制定管理数据问题的操作过程
4,制定数据质量服务水平协议
5.编写数据质量报告
工具
数据剖析工具
数据查询工具
建模、ETL工具
数据质量规则模版
元数据存储库
方法
预防措施
纠正措施
数据质量管理的最佳实践:就地解决问题
执行数据修正3种方法:
1)自动修正
2)人工检查修正
3)人工修正
质量检查、审核代码模块
有效的数据质量指标
统计过程控制
根本原因分析
实施指南
就绪评估/风险评估
组织、文化变革
数据质量、数据治理
数据质量制度
度量指标
数据质量高阶指标:
1)投资回报
2)质量水平
3)数据质量趋势
4)数据问题管理指标
5)服务水平一致性
6)数据质量计划示意图