DAMA第十二章:元数据管理

129 阅读5分钟

引言

元数据定义:关于数据的数据。

元数据范围:技术/业务流程、数据规则/约束、逻辑数据结构、物理数据结构。

元数据有助于:组织理解其自身的数据、系统、流程;用户评估数据质量;管理数据库、其他应用程序;处理、维护、集成、保护、治理数据。

元数据必要性:数据管理、数据使用。

ISO/IEC 11179,元数据注册标准:基于精确数据定义,在异构环境中实现以元数据为驱动的数据交换。

业务驱动因素

可靠、良好管理元数据有助于:
1)通过提供上下文语境、执行数据质量检查,提高数据可信度。
2)通过扩展用途,增加战略信息(主数据)价值。
3)通过识别冗余数据、流程,提高运营效率。
4)防止使用过时、不正确数据。
5)减少数据研究时间。
6)改善数据使用者、IT专业人员之间的沟通。
7)创建准确的影响分析,降低项目失败风险。
8)通过缩短系统开发生命周期时间,缩短产品上市时间。
9)通过全面记录数据背景、历史、来源,降低培训成本、员工流动的影响。
10)满足监管合规。

目标、原则

元数据管理目标:
1)记录管理与数据相关的业务术语的知识体系,确保人们理解使用数据内容一致。
2)收集整合不同来源的元数据,确保人们了解来自组织不同部门的数据之间的相似、差异。
3)确保元数据的质量、一致性、及时性、安全。
4)提供标准途径,元数据使用者(人员、系统、流程)可以访问元数据。
5)推广/强制使用技术元数据标准,实现数据交换。

基本概念

1.元数据与数据

元数据也是一种数据,用数据管理方式进行管理。

2.元数据类型

业务元数据、技术元数据、操作元数据。
(1)业务元数据business metadata
    1)定义、描述
    2)数据模型
    3)数据质量规则、检核结果
    
(2)技术元数据technical metadata
    1)物理数据库表名、字段名
    2)字段属性
    3)数据CRUD(增删改查)规则
    
(3)操作元数据operational metadata
    1)批处理程序的作业执行日志
    2)服务水平协议SLA,要求和规定

信息技术之外(图书馆/信息科学),元数据类别:
1)描述元数据descriptive metadata
2)结构元数据structural matadata
3)管理元数据administrative matadata

3.ISO/IEC 11179 元数据注册标准

4.非结构化数据的元数据

元数据对非结构化数据的管理很重要。

非结构化数据元数据类型:
1)描述元数据
2)结构元数据
3)管理元数据
4)书目元数据
5)记录元数据

5.元数据来源

技术元数据:从数据库对象中收集
业务元数据:对现有系统中的数据进行逆向工程,从现有数据字典、模型、流程文档中收集
元数据与其他数据一样

字母顺序:
(1)应用程序中,元数据存储库
(2)业务术语表business glossary
    核心用户功能需求:
    1)业务用户business users
    2)数据管理专员data stewards
    3)技术用户technical users
(3)商务智能工具
(4)配置管理工具CMDB
(5)数字字典
    定义数据集的机构、内容。
    通常用于单个数据库、应用程序、数据仓库。
    管理数据模型中每个元素的:名称、描述、结构、特征、存储要求、默认值、关系、唯一性、其他属性。
    嵌入在数据库工具。
(6)数据集成工具
(7)数据库管理、系统目录
(8)数据映射管理工具
(9)数据质量工具
(10)字典、目录
(11)事件消息工具
(12)建模工具、存储库
(13)参考数据库
(14)服务注册
(15)其他元数据存储

6. 眼数据架构类型

活动

定义元数据战略

理解眼数据需求

定义元数据架构

1.创建元模型

元模型:元数据存储库的数据模型
定语数据战略、理解业务需求后,第一个设计步骤。

2.应用元数据标准

3.管理元数据存储

质量控制:
1)质量保证,质量控制。
2)数据更新频率,与时间表匹配
3)缺失元数据报告
4)未更新元数据报告

创建、维护元数据

元数据管理一般原则:
1)责任accountability
2)标准standards
3)改进improvement

1.整合元数据

2.分发、传递元数据

查询、报告、分析元数据

变更影响分析、数据血缘关系报告

工具

方法

数据血缘&影响分析

数据血缘创建的局限性:元数据管理系统的覆盖范围,超出范围无法提供信息。
元数据管理系统,通过提供数据血缘详情工具导入“实现态血缘”;从“设计态血缘”获取实施细节。

发现数据血缘关系:
1)业务焦点:根据业务优先级寻找数据元的血缘关系。
2)技术焦点:从源系统开始识别,直接相关的数据使用者、间接的数据使用者,直到识别出的所有系统。

应用于大数据采集的元数据

实施指南

就绪评估/风险评估

缺失高质量元数据的影响:
1)因不正确、不完整、不合理的假设,或缺乏数据内容的知识,导致错误判断。
2)暴露敏感数据,使客户/员工面临风险,影响商业信誉,导致法律纠纷。
3)数据领域专家离开,知识也被带走。

组织、文化变革

元数据治理

过程控制

元数据解决方案的文档

元数据标准、指南

度量指标

元数据管理环境建议指标:
1)元数据存储库完整性
2)元数据管理成熟度。
3)专职人员配备
4)元数据使用情况
5)业务术语活动
6)主数据服务数据遵从性
7)元数据文档质量
8)元数据存储库可用性