导言
2024 年,Gartner 在数据管理技术成熟度曲线中预测,数据编织(Data Fabric)在未来 2-5 年内将获得广泛应用。而同时,Gartner 在《2024 年中国数据、分析及人工智能技术成熟度曲线》报告中指出,“数据中台”落入泡沫破裂低谷期,且不再具有上升空间。
从数据中台到数据编织,两种不同数据管理架构的演进,其背后的推动力量是什么?又是哪些原因使得两种架构走向不同的命运?彼此之间存在哪些差异点和结合点?对企业而言数据编织适用于怎样的场景,会带来哪些价值?
围绕这些问题,在 Aloudata 与 DataFun 联合举办的《数据编织价值实现评估指南》白皮书发布会上,康明斯中国区首席架构师徐志蔚、西卡中国 BI 和数据负责人袁莺与 Aloudata 创始人& CEO 周卫林一起展开讨论,结合真实业务场景为我们带来一场精彩的专业探讨。DataFun 发起人王大川主持了本场圆桌讨论。
01 什么原因?在什么时间?关注到数据编织
徐 : 从康明斯中国的角度,我们有很多合资企业,业务架构相对复杂。中国业务的数据要进行本地化存储,面向总部只能提供汇总处理后的报表数据。以这样的形式上报数据,主要源于两方面考量:一是国家对数据安全管理的日益严格及相关法规的不断完善;二是企业内部对数据资产保护意识不断增强。鉴于此,我们开始关注到数据虚拟化技术和数据编织理念,以解决合资公司与总部间数据迁移的难题。同传统数据架构相比,数据虚拟化技术能够实现在数据保留于本地的同时,无需进行物理迁移,即“零搬运”完成数据的集成整合。
袁 : 我接触并应用数据编织比较早,大概在 2022 年,作为数据服务提供商。当时我们服务的客户群体普遍拥有众多数据仓库和数据湖,然而,前端业务用数需求变化极快,传统的数据架构难以适应,响应节奏很慢。因此,我们开始关注并应用数据编织。
现在作为西卡中国 BI 和数据负责人,面临的问题是,我们拥有云上和云下的数据资源,以及大量的手工数据,这些数据跨越不同区域,并涉及数据安全与合规等问题。如果采用传统数据架构整合数据,将耗费大量成本和精力,也无法保证数据的时效性和可用性,难以有效支持业务的用数需求,而数据编织则能够高效地解决这一问题,并提升数据使用的灵活性和响应速度,更好地满足业务需求。
周: 我们与其他企业不同,并不是先有了数据编织的概念,然后去落地实施相关技术与产品。相反,我们是基于实践探索,希望能够解决传统 ETL 的痛点,进而自主研发了数据虚拟化技术。在此基础上,我们提出了 NoETL 的理念,包括自动化数据管理的价值主张。事后看,我们的 NoETL 理念与数据编织高度契合,也就自然成为数据编织架构理念的拥立者、实践者和引领者。
02 数据中台作为经典数据架构,有哪些痛点?
徐: 目前,很多企业还是会利用数据中台来支撑数据分析。但在采用数据中台的过程中产生了很多痛点,比如原始数据与数据中台的数据往往存在多重备份,造成资源浪费,对整个网络带宽也构成较大消耗,特别在涉及大规模数据迁移时。而对于像我们这样的跨国企业,最大的问题是,虽然成本问题通过架构优化可能得以缓解,但数据合规性却是一个普遍且难以绕过的挑战(几乎所有跨国企业在某种程度上都会遭遇这一问题)。因此,数据编织给我们提供了一个可行的解决方案。而且若不采用数据编织,甚至会在技术进步方面远远落后于行业内的先进企业。
袁: 从数据源到数据生产再到数据消费,这中间存在一条冗长的加工链路,涵盖了大量的数据迁移、转换及维护作业。采用数据中台,需要配备大量专业 ETL 技术人员,这无疑增加了企业的运营成本。随着数据类型及加工链路的日益复杂化,相关的维护成本也随之攀升。此外,随着 IoT 数据的快速增长,这些数据需要被即时计算与利用。若继续沿用传统的数据中台架构,将难以充分发掘出数据的最大价值。
尽管数据中台的初衷是整合数据,为企业提供了一个整体的数据视图,但成本、开发与维护效率及实时性等问题已成为显著问题。在当前降本增效成为企业普遍推行的战略背景下,许多企业将数据团队视为成本中心。因此,数据团队亟需寻找新的方案,以解决成本高昂、开发与运维繁琐以及数据搬运受限等问题。
还有一个痛点,是数据的整合过程消耗的时间过长,但前端的业务决策、产品创新的用数需求越来越快,而复杂或过长的数据整合链路,也就无法及时响应业务需求。这是业务和技术方需要平衡的一个关键点。如果数据团队无法给业务决策提供及时的支持,那数据价值就会砍半。
周: 首先,数据中台的概念虽已在业界达成共识,但从全球视角及历史维度审视,其逻辑并非普遍适用。数据中台更多地被视为互联网快速发展阶段的一种最佳实践。随着数字化转型在传统企业中的推广,数据消费场景多样化,我们必须考量企业内部是否具备相应的文化与机制,以支撑数据中台的构建与实施。
其次,关于降本增效的问题,若数据技术的应用反而导致成本上升,尤其是因为协同工作增加而产生的额外成本,则需探索更为有效的解决方案。我们观察到的一个趋势是,业务对数据应用场景的增多,越来越多的依赖于数据支持业务决策与产品创新(尽管并非所有创新都能直接转化为业务价值),以达成降本增效的目的,但如果数据技术所需的 IT 成本过高,那就形成一个矛盾。一方面,IT 部门需确保新技术能带来业务价值,才可以推广;另一方面,业务部门认为,若缺乏数据分析,业务价值的产生将无从谈起。这导致 IT 部门争取预算时遭遇业务部门质疑,认为预算过高,而在实际使用时又感觉支持不足。所以,数据编织或可成为一种可行的解决方案。
03 数据编织和数据中台有哪些差异点和优势?
周: 从技术视角分析,数据中台是物理集中式架构,侧重于物理搬运与统一归集,要求所有数据流向一个中心,以便进行全域数据分析,主要载体是物理化的数据仓库,它是互联网时代数据管理的一种最佳实践。然而,近十年来,云环境的变化、合规性要求的提升以及跨国协作需求的增加,数据编织架构开始受到关注。数据编织主要通过数据虚拟化技术实现对全域数据的逻辑化集成整合,而非物理集中,它同样提供了一个统一的访问接口,但这个接口主要暴露给用户侧,而非技术侧。
进一步说,数据中台的数据处理流程高度依赖于 ETL 工程师的人工操作,数据编织更加强调自动化,减少人工作业,并能够通过引入如人工智能与 AI 算法,不断增强数据处理与分析的智能化水平。
从场景价值来看,还是要看企业数字化阶段,比如 0 到 1 阶段,过去 5 年,众多企业采用了数据中台架构,但是现在很多公司开始采用数据编织架构,采用逻辑数仓的方式,目前我们服务的客户反馈,数据编织架构所展现的效果显著优于数据中台。另一类是数字化从 1到 N 阶段的企业,他们拥有更加多样化的新型应用场景,比如银行客户,尽管表面上看似采用集中式技术架构,但深入分析后,会发现既有上一代计算引擎,也有各类应用集市,因此在数据访问层存在“数据孤岛”、业务响应慢、依赖于 IT 资源支持,以及数据合规等问题。那如何在为新型场景提供数据支持的同时,还能实现数据的集中管控?这其中涉及到访问切片的问题,数据编织架构可作为一种有效的解决方案,被应用于这一层,以实现数据的高效整合与访问控制。
徐:从康明斯中国的角度,我们有很多合资企业,业务架构相对复杂。中国业务的数据要进行本地化存储,面向总部只能提供汇总处理后的报表数据。以这样的形式上报数据,主要源于两方面考量:一是国家对数据安全管理的日益严格及相关法规的不断完善;二是企业内部对数据资产保护意识不断增强。鉴于此,我们开始关注到数据虚拟化技术和数据编织理念,以解决合资公司与总部间数据迁移的难题。同传统数据架构相比,数据虚拟化技术能够实现在数据保留于本地的同时,无需进行物理迁移,即“零搬运”完成数据的集成整合。
袁: 随着数据规模的持续增长、数据存储位置的多样化以及技术发展的日新月异,企业对数据访问的时效性和灵活性需求也在不断变化,这促使数据架构不断演进,比如数据中台、数据编织,以通过对“多源异构”的数据整合,为企业提供统一的数据视图。然而,不同的数据架构在实际应用中的场景存在显著差异。数据中台的数据存储模式主要是物理集中式的。数据编织更多地提供一种虚拟化的逻辑集成方案,能够在云上、本地系统以及多个存储位置之间构建统一的虚拟访问层,不仅解决了数据迁移的问题,还有助于应对数据合规性的挑战。
此外,数据编织具备灵活应对前端需求变化的能力。它通过采用 NoETL 的方法、数据虚拟化技术,显著缩短了数据集成与整合的链路,从而能够迅速响应前端对数据使用的需求。由于数据编织能够轻量化集成所有的数据点,因此它还能够提供即时服务以及数据应用,进一步提升了数据利用的效率与灵活性。
在我看来,企业在数字化转型的不同阶段和不同应用场景下,这两种架构可能会融合形成一种数据生态,它们并非相互替代的关系,而是可以相互融合、互为补充。
徐: 从架构层面分析,数据编织所能提供的最大优势在于,它能够推进自服务场景。因为就数据而言,业务部门本身是最了解数据的,如果业务部门无法直接获取所需数据进行分析,则可能导致数据处理过程中的误解与偏差。所以通过数据编织,我们可以将数据分析的能力给到业务,无需依赖 ETL 开发,即时获取并充分利用数据价值。
袁: 我很赞同徐老师的观点,将数据分析能力给到业务,有助于实现数据的民主化,使得更多需要数据的人员能够快速利用数据,挖掘数据价值,更好地服务于业务和用户。某机构也曾发布一个报告,在企业内部,真正能够使用到数据的人仅在 10% 左右。如果采用数据编织,可以让需要使用数据的人,及早拿到数据,实现自服务。
04 是否有数据编织落地探索?以及收益体现?
徐: 虽然在中国区,我们现在还没有落地使用数据编织,但正在探讨如何向业务部门展示数据编织的价值,以推进落地。作为一家合资企业,数据合规性是我们很看重的一个考量因素,因为最底层的需求是,数据不得进行物理迁移,但按照总部和管理的需求,希望能够获得覆盖到合资工厂的业务数据。这便引发了两个问题:一是如何确保数据的安全性,二是总部如何有效获取合资工厂的业务数据。
袁: 我们正进行一系列 POC 测试。作为一家跨国企业,我们的核心数据源位于云端且部署在海外,中国的数据中心采用本地部署方式,我们还拥有大量如精准营销数据和售后服务数据等。若采用传统数据中台架构,会面临中国及欧洲数据法的合规挑战,且大规模数据迁移将耗费巨大成本。而采用数据编织能够将整个数据整合周期缩短 40%,并适应快速变化的业务需求,实现数据整合与不断调整的并行处理。此外,我们还希望通过数据编织,将数据开放给财务、销售等业务人员,以推动他们的业务发展。
周: 数据编织的第一个好处是业务的响应效率提升,通过把 ETL 过程的封装,实现自动化,降低了上手门槛,给业务充分的自由度;第二个是降本,传统 ETL 技术是通过“空间换时间”的架构,是一种“先生产后消费”的模式,一定存在大量有更新但无使用的数据,这意味着至少会有 30% 存算资源浪费(数据库存),数据编织通过数据虚拟化和动态自适应查询加速,实现了一种“以销定产”的模式,可以减少存算资源的浪费,节约至少 30% 以上的存算成本。
所以我们提出了两个关键指标,一个是当天需求满足率,是站在业务方视角评估和感受数据平台能力和价值的唯一核心指标,也是数据产生业务价值的重要体现之一;另一个是当天数据动销率,是对存算资源是否合理使用的量化指标,即当天有更新的数据在当天或未来段时间内(比如 30 天内)的使用率(有没有下游场景对数据产生访问)。
05 对数据编织的发展和应用有何展望?
徐: 现在我们已经步入数据时代,数据量正以几何倍数迅速增长,为了有效利用这些数据,工具需具备高效性、成本效益以及使用友好性。相较于数据中台,数据编织是一种增强型的解决方案,所以在我看来,未来 3-5 年内,数据编织有望成为数据挖掘、数据分析及数据自服务的重要工具,发展前景广阔。
袁: 我认为,随着 AI 的不断进步,数据编织将进一步推动数据整合的自动化,极大减少人工作业,提升数据处理的效率,降低运营成本。现在数据编织的核心价值主要体现在企业内部的数据共享与整合,打破“数据孤岛”,促进了信息的流通与协同。未来,数据编织有望打破行业界限,促成跨行业的数据共享与合作,推动整个社会经济的数字化转型。
周: IT 技术的发展一般是以 10 年左右为周期,现在我们迎来了数据中台的拐点期,数据编织正被越来越多的企业关注和接受。根据 Gartner 的预测,以及从现实我们服务的客户的反馈,我们对数据编织还是持比较乐观的态度,预计在未来一两年内,领先企业的示范效应将日益显著,推动数据编织在更广泛的场景中应用,因为我们刚刚提到的效率、成本等场景需求是无法回避的。
那如何实现数据编织的落地应用?欢迎下载 Aloudata 最近发布的《数据编织价值评估指南》白皮书。白皮书不仅提出了业界首个数据编织价值评估框架,也带来了极具操作性的实践指南。