数据治理的“最后一公里”(上):为什么数据能“看”到,却不能安全地“用”到?

51 阅读7分钟

近年来,“数据治理”已成为企业数字化转型的核心议题。企业投入重金构建数据平台、梳理元数据、建立数据目录,成功地使数据资产在一定程度上“可见”了。

业务部门至少“看”到了企业有什么数据。

然而,一个普遍的悖论摆在眼前:尽管数据“可见”,但业务方获取和使用数据的流程依然“堵塞”。数据治理的“最后一公里”,即从“数据资产”到“数据消费”的链路,为何如此难以打通?

1. 数据治理的“上半场”:从“不可见”到“可见”

在探讨“最后一公里”之前,我们必须肯定数据治理“上半场”的成果。过去十年,企业主要解决了数据“存”和“看”的问题:

  • “存”的问题: 通过数据仓库、数据湖等技术,企业将分散在各个业务系统(ERP, CRM, SCM...)中的数据孤岛进行了汇集和标准化存储。
  • “看”的问题: 通过数据目录、元数据管理、数据血缘等工具,企业对汇集的数据进行了梳理。DBA、数据架构师和部分业务分析师,至少可以通过数据地图(Data Catalog)查到“客户主数据表在哪里”、“订单额这个指标是怎么来的”。

至此,数据在技术和管理层面上实现了“可见”。然而,治理的最终目的不是为了“看”,而是为了“用”。“可见”只是起点,而“安全、便捷地使用”才是终点。

问题恰恰出在从“可见”到“使用”的这个跳跃上。

2. 核心矛盾:IT的“安全风控” vs 业务的“敏捷用数”

“最后一公里”的堵塞,本质上源于一个不可调和的结构性矛盾:IT和数据安全部门的核心职责是“风控、保稳定”,而业务部门的核心诉求是“敏捷、要效率”。

  • IT的视角(风控): “我放开一个原始表的权限,谁知道你会写什么SQL?会不会SELECT *拖垮生产库?会不会JOIN错表导致性能雪崩?万一你把敏感数据(如手机号)导出到本地Excel,泄露了谁负责?” —— 因此,IT的默认策略是“不开放”
  • 业务的视角(敏捷): “我只是想看一下本季度TOP10客户的复购率,为什么提个工单要等三天?为什么IT给我的数据还是错的?我急着要数据做决策,等不了!” —— 因此,业务的默认策略是“催促”与“绕过”

这种矛盾导致数据消费链路被割裂,形成了横亘在“数据”与“用户”之间的四大屏障。

3. 屏障一:权限的“审批黑盒”

当业务分析师(用户)在数据目录中“看”到一张表(例如dws_customer_order_detail)并尝试访问时,他面对的第一道墙,就是权限。

在传统治理模式下,获取权限是一个漫长、不透明的流程:

  1. 提工单: 用户提交一个OA或ITSM工单,描述“我想要某某表的读权限,用于某某分析”。
  2. 漫长审批: 工单流经业务主管(确认需求)、数据Owner(确认数据归属)、DBA(确认安全风险)、安全合规部门(确认合规性)。
  3. 粗粒度授权: DBA为了省事,要么直接拒绝,要么就直接授予该用户一个数据库账户,允许其通过客户端工具进行SELECT。

这个过程动辄数天,且结果往往是“一刀切”的。业务人员要么拿不到权限,要么拿到了一个“风险极大”的原始表权限。IT部门不得不在“噎死业务”和“撑死业务”之间做选择。

4. 屏障二:技术的“能力鸿沟”

假设业务分析师历经千辛万苦,终于拿到了表的SELECT权限。他马上会遇到第二道墙:技术鸿沟。

  • SQL门槛: 业务人员懂“业务指标”,但未必懂“SQL”。他们很难将“本季度复购率”翻译成一个涉及多表JOIN、GROUP BY、CASE WHEN和窗口函数的复杂查询。
  • “表”不等于“指标”: IT治理的数据是“表”,而业务需要的是“指标”或“服务”。dws_customer_order_detail这张表可能有200个字段,业务人员如何知道该用哪个字段?
  • 工具缺失: 业务人员的电脑上通常只有Excel和BI工具,他们缺乏像DBA那样的专业SQL客户端。

结果是,即使权限开放了,业务人员依然“用不起来”。他们只能再次回头找IT的数据开发团队:“能帮我跑个数吗?”—— 最终又回到了“提需求、排期、T+1交付”的瀑布流模式。

5. 屏障三:安全的“合规枷锁”

IT部门之所以设置重重关卡,核心担忧在于“安全”与“合规”。这构成了第三道,也是最坚固的一道墙。

  • 数据泄露风险: 传统授权(如给一个数据库账户)是高风险的。员工可以通过客户端工具轻易地SELECT * FROM sensitive_table LIMIT 10000,将海量敏感数据(如身份证、手机号、家庭住址)导出到本地,形成“数据泄露”。
  • 合规性挑战: 《数据安全法》、《个人信息保护法》等法规要求数据的使用必须遵循“最小化原则”和“可追溯原则”。
    • 最小化原则: 业务人员只想看“复购率”这个聚合后的统计值,但IT却给了他“所有订单明细”的原始权限,这严重违反了最小化原则。
    • 可追溯原则: IT只知道user_bi这个公共账户执行了查询,但无法追溯到是哪一个业务人员、在什么时间、为了什么目的查询了数据。

在合规高压下,IT部门宁可“不作为”(不给权限),也不敢“乱作为”(给错权限)。

6. 屏障四:“影子IT”与“数据孤岛2.0”

当正式的数据使用链路被前三道屏障堵死时,业务的敏捷需求并不会消失。它只会转向“地下”,催生出“影子IT”。

这是“最后一公里”堵塞后最讽刺的恶果:

  1. 业务部门实在等不及,要求IT数据团队“你把数据导成Excel发我吧”。
  2. IT团队为了应付业务,执行了一次SQL查询,将结果(可能包含敏感数据)导出为CSV或Excel,通过邮件或共享网盘发给业务方。
  3. 业务方拿到这个Excel,如获至宝。他们在此基础上进行二次加工、VLookup、制作PPT。
  4. 这份“离线、脱敏失效、版本未知、血缘中断”的Excel,开始在部门内部流传,成为新的“数据源”。

企业投入巨资治理数据湖,结果业务的核心决策却依赖于一份无人管理的、存在于个人电脑上的Excel。这形成了“数据孤岛2.0” ,使得数据治理的“上半场”成果付诸东流。

7. 结论:

数据治理的“最后一公里”堵塞,核心在于我们混淆了“治理数据”和“治理数据的使用”

我们成功地治理了“静止”在数据湖/仓中的数据(数据资产),却未能有效治理“流动”向用户的数据(数据服务)。我们用管理“金库”(数据仓库)的思路,去管理“自来水管”(数据消费),导致业务方“临渴掘井”。

从“看”到“用”,缺少的不是更严的审批,也不是更松的权限,而是一个全新的“数据服务层”。这个中间层必须能够将“原始、高风险的表权限”转换为“安全、低门槛的API服务或指标”。