如何理解数据治理的一点见解

1,801 阅读8分钟

数据治理是什么

数据治理是个很泛的概念,在多个场景下它的定义可大可小,有的时候它指数据资源及其应用过程的相关管控活动,有的时候它又包括数据管理和数据价值“变现”的一些列数据管理活动的集合,所以网易严选的分享里会特别提到做“无边界”的治理,即是指广义的数据治理。

定义

让我们先看看数据治理的3种定义:

  1. 数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划,监控和执行),是组织为实现数据资产最大化所开展的一系列持续工作过程,明确数据相关方的责权、协调数据相关方达成数据利益一致、促进数据相关方采取联合数据行动。
  2. IBM认为,数据治理是指一个质量监控规范,它将严密性和纪律性植入组织的信息管理、使用、改进和保护过程中。通过促进跨组织合作和结构化决策,有效的数据治理能够提高一个组织的数据质量、可用性和完整性。
  3. DGI(数据治理研究院)认为,数据治理是指一个通过一些信息相关的过程来实现决策权分配和职责分工的系统,这些过程按照一些达成共识的模型来运行,这些模型描述了谁,根据什么信息,在什么时间和情况下,用什么方法,采取什么行动。

这三者定义的思想我中有你,你中有我,我认为DGI的定义最通俗易懂,可以以DGI的定义,作为数据治理的共识。如果感觉看着文字仍然难以消化含义的话,下面的图可能可以方便你理解DGI定义包含的信息。

数据治理定义.png

方法

了解了定义后,我们该如何去了解数据治理呢?当前市场上的数据治理标准、框架众多,如果做调研时不预设问题或预设思路地去看,不免看得眼花缭乱而迷失其中。这里我推荐3种调研方法:

  1. 先找最大公约数,好的系统设计都会将系统分成稳定不变的base模型和外部随着业务变化而方便迭代的扩展模型,这种松耦合的设计可以避免迭代改动的时候没法控制影响范围,这个道理放在我们理解数据治理也是一样的,我们找各个框架、标准的共同主题是什么,那就是我们构建我们的数据治理理论时必然要满足的,至于不一样的主题,则可以做剪枝,视我们的业务实际情况是否需要做该主题决定是否纳入模型。这里各框架、标准的最大公约数可见下:

  2. 分阶段。数据治理是个宏大、长周期的主题,数据治理工作必然没法一蹴而就,更勿论有些工作之间还存在依赖关系,因此我们要划分数据治理不同阶段的主题,这方面美团就已经有过相关调研,我觉得分析得很好就直接拿过来了:

不同阶段.png

  1. 自顶向下,数据治理的工作覆盖从最高层到最细粒度的执行细节,因此从最顶层的战略规划开始理解有助于我们先从“宏大叙事”去理解数据治理,再去关注具体的执行细节。且推荐使用图来表示数据治理的概念,图能携带的信息是最多的,且越是简单的图越是提炼信息,这里可以用一个图来代表:

数据治理定位.png

共识

使用上面三个视角去调研,我们能得出什么共识结论呢?

数据治理的框架,可以最少分为3层,作为最底层的base,是实际数据我们要关注的最小主题并集,这里分别为:

  1. 数据成本(包含存储,计算乃至扫描成本)
  2. 数据质量
  3. 数据安全
  4. 数据建模
  5. 数据服务/应用/变现

第二层是我们为治理底层数据主题设立的中间架构,可以包括:

  1. 组织
  2. 标准(定义“什么是好”的评价体系)
  3. 制度/管控
  4. 方法论/技术(即具体的实践思路,诸如质量管理用DQC,成本管理用生命周期管理云云)

最后一层即是我们的治理目标,即:

  1. 数据战略(数据治理的分析成果推动的决策)
  2. 数据价值(数据治理的结果的衡量指标)

这套极简框架可以和DGI管控框架匹配,见下图:

数据治理DGI.png

对应关系:使命 -> 战略,关注点-目的 -> 大数据治理目标,指标/成功测量 -> 评价体系,data rules and definitions -> 数据标准,4-9 -> 制度,数据管控流程 -> 方法论/技术。怎么样?是不是好理解多了?

我们也可以把一些属于方法论的东西套到这个框架内:

项目名主题
DQC数据质量中心数据质量
DQC数据质量中心数据质量
生命周期管理数据成本
健康度评价体系数据标准

再搞清楚数据治理的框架后,在讨论具体的工作前,我们要产出数据评价体系——先定义什么是好?什么是好的建模模型?什么是好的治理结果?然后再开始动手,最后回过头来看评分怎么样,这样才有个量化的结果用于评估数据治理的实施情况。

还有其他的更具体的共识我们可以后面慢慢补充,比如,数据治理总是先污染再治理;数据治理不能一蹴而就,是个中长期规划,因此战略制定很重要;数据安全是底线,云云,这些共识确定下来了,我们才好组织具体的治理工作。

最后才是结合公司实际情况,讨论各主题具体的执行方案,比如当前市场现有的成熟方法论是什么,现有成熟的方案是什么,如何选型,比如质量主题下的成熟方法论有:数据资产等级⽅案,数据加⼯卡点校验,DQC数据质量中⼼。

感悟

了解数据治理有用吗?价值大吗?这是一个老油条,啊不是,一个成熟研发习惯思考的问题,因为他的精力和时间不再无限,职业发展不再一直处于上升期,他要有选择地投资自己的时间和精力,力求最大的升值回报。我因需调研了各公司公开的数据治理资料发现,作为行业标杆的阿里,阿里的数据治理平台dataWorks通用性强到可以作为产品售卖,美团,网易严选,有赞,讯飞,蘑菇街,不管大厂小厂,有名气的,数据积累早的,基本都早早走到了数据治理的阶段,到22年已经内部形成一套成熟准确的理论和持续产生效益的系统(一系列工具和平台)了,后续的工作应该只需要再现有的框架上继续迭代就可以了。那么,这些公司还会需要懂数据治理理论/实践的人吗?互联网行业数据治理仍处于早期阶段,仍有这类人才需求的公司多吗?是否那些成熟公司已经有这方面的人才和平台,只需要招一些执行力强的初级研发去落实迭代就行了,就像43-45年的苏联红军一样,在执行战役时,以高速的前线兵员消耗去填战线,但是后勤能极快的兵力补充到各集团军,因此能比敌人更快地调整到下一次战役前就绪的状态。

后面,我又想这个想法应该是多虑了,因为数据治理是一个高层的战略规划,如果不能理解理论,作为开发的大头兵还好,作为组长、团队负责人可能就没法充分地理解高层传达的大数据战略,没法正确地区分主要目标和次要目标,没法把关键里程碑拆解出来。而且,数据治理是一个长期的过程,大部分公司的大数据工作,最后总会多多少少归为——治理,我相信未来治理会越来越专业化,乃至“数据治理工程师”这个title变得常见。最后,数据治理的工作是无限的,不会担心无事可做,无非收益可能随着边际效用慢慢递减,数据治理如果满分100分,不可能现在各大公司的都是100分吧?肯定有在快速推进时,或考虑不充分,或为速度牺牲的各种缺陷,这就是值得优化的点,也是可以继续降本增效的地方。最后,如果说有一个的数据治理平台做得太完善了,简直没有什么地方可以提高的,那就把它拿出来作为解决方案售卖吧!为公司创收,顺便再满足用户个性化需求时继续迭代和接需求。从趋势上考虑,在信息化之后,数字化是政策层面上充分肯定的发展方向,这么多传统企业数字化转型,也是一块大蛋糕。所以,怎么会发愁没有事情做呢?