管理企业数据通常需要使用几个软件工具,如CRM、电子邮件营销工具、ERP等。这些程序中的每一个都以不同的方式收集数据。此外,还有第三方数据;然而,为了使无尽的数据流有意义,以实现数据驱动的决策--它需要被组织为一个单一的来源。
这就是数据统一的用武之地。这个过程的目的是合并组织的所有分布在不同操作系统和格式的数据,并将其标准化,作为一个单一的来源来对待。根据行业报告,全球创建、捕获和消费的数据量预计将从2020年的64兆字节达到2025年的180兆字节(ZB)。这进一步要求数据的统一,但组织面临着许多挑战。
确保干净的数据
数据的统一不仅仅是将数据组织到一个单一的来源。它还要求保持数据的准确性。要使数据准确,它必须满足两个标准--形式和内容。
例如,考虑到不同格式的日期可能会有问题。以美国格式存储的日期将是 "8/10/2021",但对于像印度这样的国家,它是 "10/8/2021"。其次,"纽约市 "有时被捕获为 "NY "或 "NYC"--数据内容的一致性需要保持。否则,分组和总结数据又会变得很麻烦。人们可以通过使用客户数据平台来避免这种混乱,该平台可以自动更新(和添加)信息以提高准确性。在整合数据时,它还能检测出重复的内容。
数据仍处于孤岛状态
一个组织的不同部门之间的脱节使得有价值的信息无法被其他部门和软件系统获取,也无法从这些信息中受益。简而言之,孤岛上的数据是一条失去机会的必经之路。正确的做法是用一个客户数据平台重新连接各个部门,打破数据孤岛,使公司的每个人都能获得数据。
错误的模式方法
数据的统一必须是模式的最后,但组织却没有理解这个简单的规则。数据是通过多个来源收集的。此外,这些不同来源的属性的数量是巨大的。因此,任何试图提前建立一个全局模式的做法都是徒劳的。先期建立模式也是不可取的。唯一可行的方法是从本地数据源中 "自下而上 "地建立一个模式。换句话说,全局模式是 "最后 "创建的。
缺少合作
负责建立数据结构和管道的专业计算机科学家也只能理解数据的细微差别。例如,考虑到来自 "Tata SIA Airlines Limited "和 "Vistara "的数据可能会让数据科学家感到困惑,不知道它们是来自同一个组织。然而,领域专家和计算机科学家之间的合作可以解决这种模糊的情况。
过时的技术
不同的规则集管理着传统的工具和系统。随着数据规模的增长,多种规则悄然而至。最好是提供训练数据并训练机器学习模型来处理规模问题。
美国计算机工程师和A.M.图灵奖得主(2014年)迈克尔-斯顿布拉克描述了可扩展数据统一的七项原则。
- **摄取数据。**这需要来自于一个组织的不同业务数据系统。
- 执行数据清理: 有时-99往往是 "空 "的代码,一些数据源可能有过时的客户地址。
- 执行转换。例如,美元到卢比或机场代码到城市名称。
- 执行模式整合。例如,一个系统中的 "工资 "在另一个系统中是 "工资"。
- 执行重复数据删除。 我在一个数据源中是 "John Wick",而在另一个数据源中是 "M.R. Wick"。
- 执行分类或其他复杂的分析。假设人们希望对一个公司的 "支出 "交易进行分类,以发现它在哪里花钱。这需要对'支出'数据进行统一,然后对由此得到的结果进行复杂的分析。
- 将统一的数据输出到其他的下游系统。
在一个高度竞争的全球情况下,了解客户群只是赢得了一半的战斗。扩大他们的规模应该是正确的和最优先的。除非流经系统的大量数据被统一,否则预测业务的未来方向将继续是一项艰巨的任务。
The postWhy Is Data Unification Such an Organisational Nightmareappeared first onAnalytics India Magazine.