数据资产管理白皮书学习笔记

308 阅读17分钟

数据资产管理概述

数据资产管理的定义与内涵

数据资产(Data Asset)是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以数据形态存在的资源。

数据资产管理(DAM,Data Asset Management)是指对企业或组织拥有的数据资产进行全面的管理和优化,以实现数据资产的价值最大化。数据资产管理需要充分融合业务、技术和管理,以确保数据资产保值增值。

数据资产管理的定位

数据资产管理位于大数据平台与数据应用的中间,承上启下。对上支持以价值创造为导向的数据应用开发,对下依托大数据平台实现数据全生命周期的管理。

数据资产管理演变

DAMA(Data Management Association,国际数据管理协会)定义了数据管理的 11 个管理职能,分别是:

  1. 数据治理
  2. 数据架构管理
  3. 数据开发
  4. 数据操作管理
  5. 数据安全管理
  6. 数据质量管理
  7. 参考数据和主数据管理
  8. 文档和内容管理
  9. 数据仓库和商务智能(BI,Business Intelligence)
  10. 元数据管理
  11. 数据管理成熟度评估

数据资产管理视角与数据管理的视角不一样,数据资产管理强调数据是一种资产,基于数据资产的价值、成本、收益开展全生命周期的管理。数据资产管理除了包含上述的数据管理等职能,还要将数据标准管理纳入管理职能,并针对当下应用场景、平台建设情况,增加了数据价值管理职能。

数据价值如何提升

数据价值难以有效发挥的原因

  • 缺乏统一数据视图
  • 数据孤岛普遍存在
  • 数据质量低下
  • 数据安全意识低下
  • 缺乏数据价值管理体系

解决方案

  • 针对 缺乏统一数据视图,形成数据地图,帮助数据开发者和数据使用者更快地知道数据从哪里来,到哪里去。
  • 针对 数据孤岛普遍存在
    • 需要建立数据互通互联,通过企业制定的统一的数据标准,建立数据共享机制,打破数据孤岛壁垒,实现高效分享。
    • 提高数据获取效率,通过搭建数据管理平台,采取机器学习等技术,将大量前期的数据准备时间和交付项目的时间缩短,提升数据的获取和服务效率。
  • 针对 数据质量低下,持续不断提高数据质量,完善数据质量稽核规则,生成数据质量稽核报告,采用数据修正,补数等策略。形成覆盖数据全生命周期的数据质量管理,实现数据向优质资产的转变。
  • 针对数据安全意识低下,需要制定完善的数据安全策略,建立体系化的数据安全措施等
  • 针对 缺乏数据价值管理体系,企业需持续完善数据价值评估体系,将数据价值持续释放

数据资产管理的职能

数据资产管理的数据一般包括元数据、主数据和业务数据。

数据模型管理为主数据、元数据和业务数据设计数据模型。

数据质量管理按照数据标准的规定稽核各部分数据内容。

元数据管理发挥承上启下的作用,承接数据标准管理和数据模型管理的阶段性成果,同时为主数据管理提供有力支撑。

数据安全管理贯穿数据全生命周期,为数据资产管理各项管理职能提供了有力支撑。

数据标准管理,顾名思义,就是定义数据模型、数据安全和数据质量相关规范。

数据标准管理

数据标准是指保障数据的内外部使用和交换的一致性和准确性的规范性约束,通常可分为基础类数据标准和指标类数据标准。

  • 基础类数据标准:库,表,字段名称长度,命名规则等,编码规则,公共代码等。
  • 指标类数据标准:基础指标,计算指标(2个及以上基础指标+计算指标,组合而来)

需要具备的基本功能有

  1. 标准生成:可按照业务领域、业务主题、信息分类、信息项等生成标准细则;
  2. 标准映射:可以将制定的标准与实际数据进行关联映射,即实现数据标准的落地执行,维护标准与元数据之间的落地映射关系,包括元数据与数据标准的映射、元数据与数据质量的映射,以及数据标准和数据质量的映射,能提供在线的手工映射配置功能,并能对映射结果做页面展示;
  3. 变更查询:是查询发布或废止的标准的变更轨迹;
  4. 映射查询:是查询标准项与元数据之间的落地情况并提供下载功能;
  5. 维护标准:是指对标准状态进行管理,包括增删改、审核、定版、发布、废止等;
  6. 标准版本查询:是指对发布状态的标准进行版本管理;
  7. 标准导出:是指按照当前系统中发布的最新标准或者选择版本来下载标准信息;
  8. 标准文档管理:指对标准相关说明文档或手册的管理,包括创建、修改、链接查询等。

数据建模管理

数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。

  • 概念模型:是一种面向用户、面向客观世界的模型,主要用来描述现实世界的概念化结构,与具体的数据库管理系统(DBMS,Database Management System)无关。
  • 逻辑模型:是一种以概念模型的框架为基础,根据业务条线、业务事项、业务流程、业务场景的需要,设计的面向业务实现的数据模型。逻辑模型可用于指导在不同的 DBMS 系统中实现。
  • 物理模型:是一种面向计算机物理表示的模型,描述了数据在储存介质上的组织结构。物理模型的设计应基于逻辑模型的成果,以保证实现业务需求。

该模块需要具备的基础功能:

  1. 数据模型设计:支持对于新建系统的正向建模能力,还应支持对原有系统的逆向工程能力,通过对数据模型进行标准化设计,能够将数据模型与整个企业架构保持一致,从源头上提高企业数据的一致性;
  2. 模型差异稽核:提供数据模型与应用数据库之间自动数据模型审核、稽核对比能力,解决数据模型设计与实现不一致而产生的“两张皮”现象,针对数据库表结构、关系等差别形成差异报告,辅助数据模型管理人员监控数据模型质量问题;提升数据模型设计和实施质量;
  3. 数据模型变更管控:支持数据模型变更管控过程,提供数据模型从设计、提交、评审、发布、实施到消亡的在线、全过程、流程化变更管理。同时,实现各系统数据模型版本化管理,自动生成版本号、版本变更明细信息,可以辅助数据模型管理人员管理不同版本的数据模型。通过工具可以简单回溯任意时间点的数据模型设计状态以及数据模型设计变更的需求来由,实现各系统数据模型的有效管控和管治,强化用户对其数据模型的掌控能力;
  4. 模型可视化:支持将管理的数据模型 E-R 图(实体关系图)转换为图片、数据建模脚本(DDL)等可视化展示形式,方便数据模型管理人员以全局视角监控系统中各类数据实体结构及实体间关系。

元数据管理

元数据(Metadata)是描述数据的数据。元数据按用途不同分为技术元数据、业务元数据和管理元数据。

  • 技术元数据(Technical Metadata):包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换的描述等;
  • 业务元数据(Business Metadata):包括业务术语、信息分类、指标、统计口径等;
  • 管理元数据(Management Metadata):包括人员角色、岗位职责、管理流程等信息。

血缘分析:实现关键信息的追踪和记录

影响分析:快速掌握元数据变更可能造成的影响

需具备以下基础功能:

  1. 元数据采集:能够适应异构环境,支持从传统关系型数据库和大数据平台中采集从数据产生系统到数据加工处理系统到数据应用报表系统的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑,也可通过自动化的方式完成元数据采集,比如用户维护好数据源连接信息后,可以根据数据源的更新频率,设定元数据同步周期,元数据管理会根据数据源的连接信息、同步周期以及开始时间,定时自动解析、获取、并更新元数据信息,保证平台元数据信息的及时有效;
  2. 元数据识别:能够从本身不包含元数据信息的数据(比如非结构化数据)中提取特征,并以此识别元数据;
  3. 元数据分类:能够根据业务特点和管理需要,动态分类元数据,包括技术元数据、业务元数据和管理元数据等;
  4. 元数据展示:能够根据类别、类型等信息展示各个数据实体的信息及其分布情况,展示数据实体间的组合、依赖关系,以及数据实体加工处理上下游的逻辑关系;
  5. 元数据应用:能够利用元数据发现数据之间的关联性,一般包括数据地图、数据血缘分析、影响分析、全链分析、热度分析等;
  6. 元数据搜索:可根据数据源库、类型等搜索元数据信息。

主数据管理

主数据是指在企业中具有高价值、被多个业务流程和系统共享、相对稳定的核心业务数据。

主数据的特点:

  • 高价值性:主数据对企业的运营和决策至关重要,它直接影响到企业的业务流程、客户满意度和竞争力。
  • 共享性:主数据在企业内部多个部门和系统中被广泛共享,确保了数据的一致性和准确性。
  • 相对稳定性:主数据一旦创建,通常在较长时间内保持相对稳定,变化频率较低。

主数据的类型:

  • 客户主数据:包括客户的基本信息、联系方式、交易记录等。
  • 产品主数据:涵盖产品的描述、规格、价格、库存等信息。
  • 供应商主数据:包含供应商的基本信息、联系方式、供货记录等。
  • 员工主数据:涉及员工的个人信息、职位、薪资等内容。

需具备以下基础功能:

  1. 主数据存储、整合:实现主数据整合、清洗、校验、合并等功能,根据企业业务规则和企业数据质量标准对收集到的主数据进行加工和处理,用于提取分散在各个支撑系统中的主数据集中到主数据存储库,合并和维护唯一、完整、准确的主数据信息;
  2. 主数据管理:支持对企业主数据的操作维护,包括主数据申请与校验、审批、变更、冻结/解冻、发布、归档等全生命周期管理;
  3. 主数据分析:实现对主数据的变更情况监控,为主数据系统管理员提供对主数据进行分析、优化、统计、比较等功能;
  4. 主数据分发与共享:实现主数据对外查询和分发服务,前者用于在其它系统发出针对主数据实时响应类查询请求时,返回所需数据,后者则用于提供批量数据分发服务,一般采用企业服务总线(ESB 工具)实现方式。

数据质量管理

数据质量是描述数据价值含量的指标

一些基础指标:

  • 完整性(数据是否缺失)
  • 规范性(数据是否按照要求的规则存储)
  • 一致性(数据的值是否存在信息含义上的冲突)
  • 准确性(数据是否错误)、唯一性(数据是否是重复的)
  • 时效性(数据是否按照时间的要求进行上传)

需具备以下基础功能:

  1. 质量需求管理:对数据使用过程中产生的问题进行收集、存储、分类并提供查询检索功能,为质量规则的制定提供依据;
  2. 规则设置:能够提供稽核规则设置功能,用于设置一个稽核规则应用于哪类数据;
  3. 规则校验:能够对所关注的数据执行数据质量规则的校验任务;
  4. 任务管理:能够提供稽核任务调度功能,指定稽核任务周期执行;
  5. 监控分析:对规则校验的结果进行监控和分析,校验结果能够定位到原始数据项;
  6. 质量报警:能够对质量问题及时进行报警,避免数据污染的发生,造成成本或业务损失;
  7. 报告生成:能够对校验结果的质量问题进行记录,积累形成问题知识库,并生成报告,在此基础上,能够根据检核结果,生成对问题数据的质量提高建议,并可直接操作修改数据。

数据安全管理

数据安全管理是指对数据设定安全等级,按照相应国家/组织相关法案及监督要求,通过评估数据安全风险、制定数据安全管理制度规范、进行数据安全分级分类,完善数据安全管理相关技术规范,保证数据被合法合规、安全地采集、传输、存储和使用。

需具备以下基础功能:

  1. 数据获取安全:能够支持数据获取需要经过申请与审批流程,保障数据获取安全;
  2. 数据脱敏:能够支持数据脱敏规则、脱敏算法及脱敏任务的管理及应用,一般情况下,脱敏方式有动态脱敏和静态脱敏两种;
  3. 统一认证:定义数据安全策略,定义用户组设立和密码标准等;
  4. 租户隔离:管理用户,密码,用户组和权限;
  5. 角色授权:划分信息等级,使用密级分类模式,对企业数据和信息产品进行分类;
  6. 日志审计:审计数据安全,监控用户身份认证和访问行为,支持经常性分析;
  7. 异常监控:指对账号异常行为的监控,如同一账号异地登录、同时多 IP 登录、多次重复登录等;
  8. 数据分类分级:能够支持对数据资产安全进行敏感分级管理,并支持根据各级别生成对应的数据安全策略。

数据价值管理

数据价值管理是对数据内在价值的度量,可以从数据成本和数据应用价值两方面来开展。

  • 数据成本:一般包括采集、存储和计算的费用和运维费用。(度量成本)
  • 价值收益:主要从数据资产的分类、使用频次、使用对象、使用效果和共享流通等方面计量。(度量收益)

需具备以下基础功能:

  1. 数据需求分析:通过数据库或者数据平台的各种数据分布分析和访问状态分析,协助数据管理人员对数据生命周期管理策略,有效发现和挖掘当前数据平台或者数据库中历史数据增长最快的关键数据,同时,为管理业务部门需求,满足业务部门对数据使用的要求提供有效的数据化支撑;
  2. 数据价值评估:依据数据需求分析,建立合适的数据价值评估模型,主要包括数据成本和收益的评估方法、评估指标等,并支持对数据价值评估方法与各项指标的动态更新;
  3. 数据成本管理:能够完成数据成本(主要包括存储成本和计算成本等)的优化,并给出影响成本的分析报告(如包含重复计算、代码质量差等);
  4. 数据收益管理:能够动态调整数据收益评价指标,依据指标对数据应用进行全流程管理,增加数据收益;
  5. 数据服务:通过构建服务目录、授权数据服务等有效完整的记录数据服务信息,并最终生成数据服务报告,展示数据服务的价值;数据资产价值统计:能够可视化展示数据资产的一段时间内的统计视图,展现数据使用和成本的变动。

数据共享管理

数据共享管理主要是指开展数据共享和交换,实现数据内外部价值的一系列活动。数据共享管理包括数据内部共享(企业内部跨组织、部门的数据交换)、外部流通(企业之间的数据交换)、对外开放。

需具备以下基础功能和辅助功能:

  1. 服务目录:能够精确的展示各目录下能够提供的数据服务类型、服务流程、数据资产目录等,其实数据资产目录能够按照业务要求和企业标准,自定义构建数据资产目录层级,并描述数据资产相关属性,包括表级属性(如表名、目录、更新周期、业务类别等)和字段结构(如字段名称、字段类型、字段长度等);
  2. 服务目录版本管理:能够记录数据资产目录变更版本信息,包括具体变更情况;其中数据资产目录可以通过元数据关联导入,在元数据有变更时,自动同步;
  3. 数据资产共享和流通:提供数据资产下载、共享、流通及服务接口等,支持按共享属性(如无条件共享、有条件共享、不共享等)对资源目录下的数据资产进行分类,支持直接提供数据和数据分析结果;
  4. 其他功能:数据服务可以通过“数据集市”的形式开展,用户通过订阅具体服务获取和使用数据。

数据资产实施步骤

建立组织架构→应用需求梳理→数据盘点梳理→引进平台技术→汇聚多源数据治理数据→数据应用→数据运营

数据资产管理可参考按照“统筹规划→管理实施→稽核检查→资产运营”四个阶段的方法策略执行。

原文链接

www.caict.ac.cn/kxyj/qwfb/b…