近年来,“数据治理”已成为企业数字化转型的核心议题。企业投入重金构建数据平台、梳理元数据、建立数据目录,成功地使数据资产在一定程度上“可见”了。
业务部门至少“看”到了企业有什么数据。
然而,一个普遍的悖论摆在眼前:尽管数据“可见”,但业务方获取和使用数据的流程依然“堵塞”。数据治理的“最后一公里”,即从“数据资产”到“数据消费”的链路,为何如此难以打通?
1. 数据治理的“上半场”:从“不可见”到“可见”
在探讨“最后一公里”之前,我们必须肯定数据治理“上半场”的成果。过去十年,企业主要解决了数据“存”和“看”的问题:
- “存”的问题: 通过数据仓库、数据湖等技术,企业将分散在各个业务系统(ERP, CRM, SCM...)中的数据孤岛进行了汇集和标准化存储。
- “看”的问题: 通过数据目录、元数据管理、数据血缘等工具,企业对汇集的数据进行了梳理。DBA、数据架构师和部分业务分析师,至少可以通过数据地图(Data Catalog)查到“客户主数据表在哪里”、“订单额这个指标是怎么来的”。
至此,数据在技术和管理层面上实现了“可见”。然而,治理的最终目的不是为了“看”,而是为了“用”。“可见”只是起点,而“安全、便捷地使用”才是终点。
问题恰恰出在从“可见”到“使用”的这个跳跃上。
2. 核心矛盾:IT的“安全风控” vs 业务的“敏捷用数”
“最后一公里”的堵塞,本质上源于一个不可调和的结构性矛盾:IT和数据安全部门的核心职责是“风控、保稳定”,而业务部门的核心诉求是“敏捷、要效率”。
- IT的视角(风控): “我放开一个原始表的权限,谁知道你会写什么SQL?会不会SELECT *拖垮生产库?会不会JOIN错表导致性能雪崩?万一你把敏感数据(如手机号)导出到本地Excel,泄露了谁负责?” —— 因此,IT的默认策略是“不开放” 。
- 业务的视角(敏捷): “我只是想看一下本季度TOP10客户的复购率,为什么提个工单要等三天?为什么IT给我的数据还是错的?我急着要数据做决策,等不了!” —— 因此,业务的默认策略是“催促”与“绕过” 。
这种矛盾导致数据消费链路被割裂,形成了横亘在“数据”与“用户”之间的四大屏障。
3. 屏障一:权限的“审批黑盒”
当业务分析师(用户)在数据目录中“看”到一张表(例如dws_customer_order_detail)并尝试访问时,他面对的第一道墙,就是权限。
在传统治理模式下,获取权限是一个漫长、不透明的流程:
- 提工单: 用户提交一个OA或ITSM工单,描述“我想要某某表的读权限,用于某某分析”。
- 漫长审批: 工单流经业务主管(确认需求)、数据Owner(确认数据归属)、DBA(确认安全风险)、安全合规部门(确认合规性)。
- 粗粒度授权: DBA为了省事,要么直接拒绝,要么就直接授予该用户一个数据库账户,允许其通过客户端工具进行SELECT。
这个过程动辄数天,且结果往往是“一刀切”的。业务人员要么拿不到权限,要么拿到了一个“风险极大”的原始表权限。IT部门不得不在“噎死业务”和“撑死业务”之间做选择。
4. 屏障二:技术的“能力鸿沟”
假设业务分析师历经千辛万苦,终于拿到了表的SELECT权限。他马上会遇到第二道墙:技术鸿沟。
- SQL门槛: 业务人员懂“业务指标”,但未必懂“SQL”。他们很难将“本季度复购率”翻译成一个涉及多表JOIN、GROUP BY、CASE WHEN和窗口函数的复杂查询。
- “表”不等于“指标”: IT治理的数据是“表”,而业务需要的是“指标”或“服务”。dws_customer_order_detail这张表可能有200个字段,业务人员如何知道该用哪个字段?
- 工具缺失: 业务人员的电脑上通常只有Excel和BI工具,他们缺乏像DBA那样的专业SQL客户端。
结果是,即使权限开放了,业务人员依然“用不起来”。他们只能再次回头找IT的数据开发团队:“能帮我跑个数吗?”—— 最终又回到了“提需求、排期、T+1交付”的瀑布流模式。
5. 屏障三:安全的“合规枷锁”
IT部门之所以设置重重关卡,核心担忧在于“安全”与“合规”。这构成了第三道,也是最坚固的一道墙。
- 数据泄露风险: 传统授权(如给一个数据库账户)是高风险的。员工可以通过客户端工具轻易地SELECT * FROM sensitive_table LIMIT 10000,将海量敏感数据(如身份证、手机号、家庭住址)导出到本地,形成“数据泄露”。
- 合规性挑战: 《数据安全法》、《个人信息保护法》等法规要求数据的使用必须遵循“最小化原则”和“可追溯原则”。
-
- 最小化原则: 业务人员只想看“复购率”这个聚合后的统计值,但IT却给了他“所有订单明细”的原始权限,这严重违反了最小化原则。
- 可追溯原则: IT只知道user_bi这个公共账户执行了查询,但无法追溯到是哪一个业务人员、在什么时间、为了什么目的查询了数据。
在合规高压下,IT部门宁可“不作为”(不给权限),也不敢“乱作为”(给错权限)。
6. 屏障四:“影子IT”与“数据孤岛2.0”
当正式的数据使用链路被前三道屏障堵死时,业务的敏捷需求并不会消失。它只会转向“地下”,催生出“影子IT”。
这是“最后一公里”堵塞后最讽刺的恶果:
- 业务部门实在等不及,要求IT数据团队“你把数据导成Excel发我吧”。
- IT团队为了应付业务,执行了一次SQL查询,将结果(可能包含敏感数据)导出为CSV或Excel,通过邮件或共享网盘发给业务方。
- 业务方拿到这个Excel,如获至宝。他们在此基础上进行二次加工、VLookup、制作PPT。
- 这份“离线、脱敏失效、版本未知、血缘中断”的Excel,开始在部门内部流传,成为新的“数据源”。
企业投入巨资治理数据湖,结果业务的核心决策却依赖于一份无人管理的、存在于个人电脑上的Excel。这形成了“数据孤岛2.0” ,使得数据治理的“上半场”成果付诸东流。
7. 结论:
数据治理的“最后一公里”堵塞,核心在于我们混淆了“治理数据”和“治理数据的使用” 。
我们成功地治理了“静止”在数据湖/仓中的数据(数据资产),却未能有效治理“流动”向用户的数据(数据服务)。我们用管理“金库”(数据仓库)的思路,去管理“自来水管”(数据消费),导致业务方“临渴掘井”。
从“看”到“用”,缺少的不是更严的审批,也不是更松的权限,而是一个全新的“数据服务层”。这个中间层必须能够将“原始、高风险的表权限”转换为“安全、低门槛的API服务或指标”。