从数据质量看,数据治理在做什么?

133 阅读9分钟

公众号不带引流

数据治理天天提,可它到底在“治”什么?——​不是搞复杂流程,而是解决最实际的问题​:​让企业数据不再混乱、真正能用起来​。而它真正“治理”的方式,是​一整套机制、流程、平台和能力的协同组合​。

今天,我们就以“数据质量”为切入点,说清三件事:数据治理到底在做什么?它为什么重要?它与中台之间又是什么关系?

一、数据治理是什么

数据治理(Data Governance)是指​组织对数据全生命周期的系统性管理行为,包括数据的创建、存储、使用、共享、归档直至销毁​。这一过程通常由企业数据治理部门主导,旨在制定并执行覆盖全企业数据应用的政策与流程。从不同角色的视角来看,数据治理的核心诉求各有侧重:

1.​管理者​:将数据治理视为数字化转型的战略支撑,期望通过数据治理确保数据能够驱动业务决策。

2.​业务人员​:更关注数据的开放性和可用性,他们需要明确数据的定义、来源与质量,以便更好地支持精准的业务操作。

而数据治理要做的,就是​用规则+流程+所有权责连接,将数据的生产、维护、分类、转换、使用全链路打通。把“工作用到的数据”部署好、标识好、维护好、有系统地管起来​,让数据有资产属性,有受益能力,有可转换价值。

二、数据治理的价值

从数据创建采集,到数据使用分享,几乎每一段环节都有问题需要被“治理”一把,如果不解决这些问题,企业数据化成熟将遥遥无期。

但数据治理不是“为了治理而治理”,它的本质是通过制度化、流程化、平台化的手段,提升数据资产的使用效率、服务能力与战略价值。 从实际业务效果来看,数据治理通常能够为企业带来以下六个价值:

1.降低业务运营成本

(1)​自动化,减低人力成本​:一致性的数据环境让系统应用集成、数据清理变得更加自动化,减少过程中的人工成本。

(2)​标准化,减少沟通成本​:标准化的数据定义让业务部门之间的沟通保持顺畅,降低由于数据不标准、定义不明确引发的各种沟通成本。

2.提升业务处理效率

有效的数据治理可以提高企业的运营效率。高质量的数据环境和高效的数据服务让企业员工可以方便、及时地查询到所需的数据,然后即可展开自己的工作,而无须在部门与部门之间进行协调、汇报等。

3.改善数据质量

高质量的数据有利于提升应用集成的效率和质量,提高数据分析的可信度。我平时工作中常用的是数据集成与治理工具FineDataLink,进行数据清洗和整合计算,通过 ETL(Extract、Transform及Load)完成从 ODS 层到 DW、DM 层的数据处理,提升数据质量,同时输出满足业务需求的规整数据,输出至下游供给有使用需求的员工,让他们通过数据集市进行数据分析。

4.控制数据风险

企业拥有可靠的数据就意味着拥有了更好的风险控制和应对能力。

5.增强数据安全

有效的数据治理可以更好地保证数据的安全防护、敏感数据保护和数据的合规使用。通过数据梳理识别敏感数据,再通过实施相应的数据安全处理技术,例如数据加密/解密、数据脱敏/脱密、数据安全传输、数据访问控制、数据分级授权等手段,实现数据的安全防护和使用合规。

6.赋能管理决策

有效的数据治理有利于提升数据分析和预测的准确性,从而改善决策水平。良好的决策是基于经验和事实的,不可靠的数据就意味着不可靠的决策。

三、数据治理的关键——治好质量

数据治理的核心目标,是提升数据的可用性、可信度和服务能力。而在整个治理体系中,数据质量是关键的一环。数据质量治理一般需要经过这几个流程:​发现数据质量问题 > 定义数据质量规则 > 质量控制 > 质量评估 > 质量优化​,每个流程都有一些需要注意的要点:

1.质量问题

列出数据可能存在的问题,如完整性、唯一性、准确性、一致性、及时性、真实性和相关性等。

2.质量规则

定义数据质量的规则和权重分配。这些规则用于评估数据的质量。比如针对字段设计质量规则,如手机号长度、日期格式、数值范围等。

3.质量控制前置

在数据进入平台之前进行质量控制,包括数据录入、数据导入和集成接入。不符合规则的数据不会被允许进入平台。

4.质量评估

对已有数据进行质量评估,生成评估报告。评估过程中会识别出不符合质量要求的脏数据,并进行详细记录。

5.数据清洗

对识别出的脏数据进行自动清洗,以提高数据质量。针对复杂问题,触发预警,推送人工复核流程。

6.低分/异常预警

对质量评分低或异常的数据发出预警,以便及时处理。

7.质量情况统计

对数据质量情况进行统计分析,以便更好地理解和改进数据质量。

四、数据质量的8个衡量标准

在衡量数据质量时,常见的标准主要包括以下八个维度:

1.准确性和精确性

准确性指数据采集值或观测值与真实值之间的接近程度,也可以理解为误差大小;而精确性则强调对同一对象重复采集或观测时,结果是否一致,波动越小说明精确性越好。

2.真实性

即数据是否如实反映了客观业务事实,是否存在人为造假、篡改或补填的现象,这是衡量数据可信度的基础。

3.及时性和即时性

及时性强调数据是否能在业务所需时间节点前准备好,例如月末财务数据能否在月初用于对账。而即时性则更偏向技术层面,关注的是数据从采集到传输、落地的响应速度,是否能第一时间流转到下游系统。

4.完整性和全面性

完整性表示应采集数据与实际采集数据之间的匹配程度,缺字段、多空值都会降低完整性;全面性则进一步关注采集内容是否覆盖了业务所需的所有维度和字段,是判断数据是否“采全”的标准。

5.关联性

它衡量数据项之间是否具有关联逻辑。例如员工的工资数据是否能与人力资源系统中的员工档案一一对应,是否具备可追溯的主键或映射关系。

数据治理不仅仅是修复“脏数据”,更不是一次性的质量清洗项目。它是一整套数据能力体系的构建过程,质量只是其中的基本点。

五、数据中台 VS 数据治理

数据治理最终要落地,离不开平台能力的支撑。比如在实际建设中,“中台”和“治理”经常同时出现。我们可以从“相同点”“不同点”和“协同关系”三个角度来理解它们的本质差异与配合方式:

1.相同点:企业级的数据体系

无论是数据治理,还是数据中台,本质上都是为了让数据真正“用得上、用得好”。它们共同具备的特征包括:

(1)​覆盖面广​:涉及数据仓库、数据集成、数据安全、ETL等多个环节。

(2)​全局视角​:是组织级别的能力体系,不是哪个部门的单兵作战。

(3)​协同建设​:都需要制度、技术与平台的协同建设。

2.不同点:价值不同

数据中台并不仅仅是数据治理工作的放大升级版,而是数据治理工作的深化,它强化了数据治理的深度和广度,并拓展了数据治理不涉及的数据应用领域。应该说,数据中台真正实现了企业内部数据的闭环。

从价值层面来看,数据中台的价值在于业务数据化、数据资产化、资产服务化和服务业务化。而数据治理则是实现数据资产化的重要步骤。

3.协同关系

数据治理不是数据平台的附件,而是数据中台建设的一个重要组成部分。数据治理,在消除数据孤岛、提高数据质量、保障数据安全等方面,支撑中台数据的可见、可用、可运营。

总结

说到底,​数据治理的目的不是建平台,而是让数据真正“能用、敢用、好用”​。它不是技术部门的孤立任务,而是业务与IT协同的系统工程——​从质量管控出发,标准定义、安全合规到服务赋能​。即使没有完善的数据中台,数据治理依然可以独立发挥作用。但数据治理是一项企业级的系统性工作,​需要管理层统一指挥、各部门协同参与、从具体业务场景出发持续推进​,才能真正实现数据能力的落地与释放。