现代数据平台价值链--从牧场到餐桌

71 阅读5分钟

现代数据平台价值链--从牧场到餐桌

前几天,我参观了马莱尼奶酪厂。在参观结束时,我在一块黑饼干上享用了一大块三层奶油布里奶酪。我思考了生产这一美味的多个步骤和努力,并认为我是多么幸运,有人愿意为我做这些工作,并以合理的价格提供他们的劳动产品。

我想到,现代数据平台的功能很像Maleny奶酪厂;将原始数据加工成美味的东西,并准备好供消费。数据客户应该对生产这些数据产品的努力表示赞叹,并对他们不必自己承担这些工作而感到感激。太多的平台没有做到这一点。他们没有及时地以合理的价格和高质量的产品来服务他们的客户。

架构不良的数据解决方案会导致数据管理员转向阴暗的商业智能世界;一个由平面文件、Excel宏和手工流程组成的大杂烩,没有记录、未经审计、没有监督,是管理的噩梦。因此,让我们来探索一个架构良好的现代数据平台的各个层次。通过乳制品的镜头。

逻辑架构

一个现代数据平台的简化逻辑架构可能看起来像这样。

它是由以下几层组成的。

源系统

这是数据的来源地。源系统运行你的业务。从你的源系统中提取数据的过程总是有一个开销,因此对这些系统来说是一个成本。出于这个原因,数据应该被提取一次,而且只提取一次。所有的下游消费者将使用这一个来源。这头牛只被挤奶一次。

原始层

原始层包含与源系统完全相同状态的数据。就像桶里的原奶一样,只有位置发生了变化,没有任何损失或转变。这样一来,用户就没有可能再去打扰源系统。他们总是可以在原始层中找到他们要找的东西。

填充原始层的过程必须是简单和自动化的。源系统的变化应该尽可能快地反映在原始层中,这样用户就没有理由建立自己的提取过程。

原始层中的数据和源系统中的数据之间的一个区别是,原始层保留了历史。这个历史数据应该很容易和当前的数据区分开来,这样访问原始层的主要用途,即直接复制源系统,就会默认发生。

顺应层

顺应层是我们开始对数据做一些工作以提高其价值的地方。数据被同质化 - 来自多个源系统的数据被混合在一起。数据被巴氏消毒 - 数据质量规则被应用。在这个过程中没有任何损失;没有聚合,任何转换都会产生额外的数据元素,而不是取代现有的数据元素。我们已经创建了一个稳定和安全的产品,可供消费。

这是我们可能将我们的数据提供给最终用户的第一个点。需要消费者直接访问原始层的用例很少。只有非常小众的厨师坚持使用生牛奶,风险大于收益。

同样,填充 "符合层 "的过程必须是廉价的,以保持。来自源系统的新数据必须能很快在 "符合层 "中使用。但同样的,用户也应该受到保护,避免出现会破坏下游产品的变化。变化应该总是导致新的数据元素,而不是改变任何现有的元素,造成连锁的破坏。

建模层

建模层是生产所有美味佳肴的地方。许多不同的数据产品被制造出来,每一个都是为不同的用户需求定制的。在可能的情况下,业务规则、代码和逻辑应该被重复使用,但重复并不是一种罪过。同样的数据可以供给多个数据集市、模型或立方体。重要的是,要比他们自己更有效地把产品带给客户。

鼓励公民开发者。让用户进入Conformed Layer的厨房来实验配方。但是那些自制的酸奶是严格用于私人消费的。如果有东西要出售,它需要经过商业厨房,在那里,数据卫生、治理和文档被严格应用,这样才能保证最终产品的质量和一致性。

可视化

可视化是自助式商业智能蓬勃发展的地方。建模层中那些美味的产品是有价值的,也是受欢迎的。当建模层包含了你所希望的每一种口味时,几乎没有人会自己搅拌黄油或冷冻冰激凌;质量控制,高效生产,随时可以享用。

然而,有无穷无尽的冰淇淋圣代报告、奶酪拼盘仪表盘和厚厚的奶昔关键绩效指标可以制作出来。这些往往是劳动密集型的,每个人都有自己的配方。因此,让数据消费者尽情发挥,给他们提供原料和工具,谁知道他们会发现什么美味的见解。


现代数据平台价值链--从牧场到餐桌》最初发表于Servian的Medium,在那里人们通过强调和回应这个故事来继续对话。