你可能没有听说过数据宕机这个词,但我敢打赌,你已经亲身经历过它和不良数据的代价。
你的CEO紧急通知你一个重要报告中的 "数据丢失"?重复的表在你的Snowflake仓库中肆虐,所有的标题都是 "Mikes_Table_GOOD-V3. "的变体?或者,也许你无意中做出了一个基于去年预测的坏数据的决定?
数据停机是指数据丢失、错误或其他不准确的情况。它有意让人想起互联网的早期阶段,当时网站会以今天令人震惊的频率宕机。
现在回过头来看,这是有道理的。不仅有基础设施方面的挑战,而且当时使用网络的人并不多,网站也没有那么多的价值。随着云计算、电子商务和SaaS的兴起,这种情况发生了变化,确保可靠性成为企业的关键任务, 网站可靠性工程(SRE) 由此诞生。
数据正处于一个类似的时间点上。技术在进步,公司在向云端迁移,数据变得比以往任何时候都更加广泛和有价值。
这方面的推论是,随着数据变得更有价值,数据质量差的后果变得更加严重。一年或两年前还足够的最佳实践、技术和投资现在将危及一个组织的竞争能力。
根据Gartner的报告,到2025年,80%寻求扩展数字业务的组织将失败,因为他们没有采取现代的数据和分析治理方法。
在这篇文章中,我们将介绍不良数据的成本正在上升的8个原因。让我们进入正题。
数据正在向下游移动
不良数据的成本升级取决于谁发现了这个问题。
如果坏数据被数据工程师发现,他们就是英雄。没有伤害,也没有犯规。如果坏数据被公众发现,根据情况,可能会有声誉或法律上的影响。
每个阶段也作为一个过滤器,防止不良数据向下游移动。目前的挑战是,数据方面有多种趋势,从数据民主化、数据产品、反向ETL等方面加速了数据向下游移动的步伐。
数据堆栈变得更加复杂
糟糕的数据越往下游走,修复的成本就越高。让数据工程师对ETL管道进行故障排除要比让数据科学家重新训练被输入坏数据的机器学习模型要容易和快速得多。
昂贵的也不仅仅是补救措施。随着公司越来越依赖复杂的数据资产来帮助执行业务决策,不良数据的机会成本也在上升。
例如,我与一家投资公司谈过,该公司有一个机器学习模型,当债券符合某些标准时,会自动购买。模式错误会使模型离线数天或数周,结果使他们的这部分业务停滞不前。糟糕。
随着数据堆栈变得越来越复杂,也有更多的数据 "交接",带来了更多问题的机会。例如,与我交谈的一家游戏公司注意到他们的新用户获取数据出现了漂移。
他们投放广告的社交媒体平台改变了他们的数据时间表,所以他们每12小时而不是24小时提供数据。该公司的ETL被设置为每天只接收一次数据,所以这意味着突然有一半的活动数据没有被处理或传递到下游,使他们的新用户指标从 "付费 "向 "有机 "倾斜。
增加数据采用
随着数据停机,你现在有更多的人在等待你
,很可能你的组织有更多的数据消费者,他们比一年前更依赖数据。企业已经认识到数据民主化的力量,并正在迅速采取行动,使他们的组织更加以数据为导向。
根据 谷歌云和《哈佛商业评论》的报告, 97%的受访行业领导者认为,在整个组织范围内获得数据和分析对其业务的成功至关重要。事实上,超过一半的AutoTrader UK的员工每月至少一次定期接触Looker仪表盘中的数据。
这是一个了不起的趋势。然而,更多的数据消费者和更多的数据分析师意味着更多的人在数据停机时坐立不安。
数据消费者的期望值在不断提高
而且他们的期望值比以前更高。他们习惯于利用SaaS产品,保证5个9的可用性,这意味着他们每年的停机时间少于12分钟。说实话,我不知道有哪个数据团队能达到这个标准。
不幸的是,大多数数据团队的评估是基于一种感觉。要么是数据消费者和行政领导 "感觉 "团队做得很好,要么是很差。这是因为根据Gartner的报告,近60%的组织没有衡量不良数据的年度财务成本。
由于数据消费者的期望值很高,而衡量业绩的定性数据却很少,数据停机不仅对组织,而且对数据团队都有严重的影响。
数据工程师更难找
招聘数据工程师?这可能需要一段时间
我从数据团队那里听到的最频繁的感叹是,在当今竞争异常激烈的劳动力市场上,招聘是多么困难。他们的挫败感是可想而知的。他们已经经历了漫长而艰辛的招聘过程,但却找不到任何数据工程师来应聘。
这也不仅仅是传闻。Dice 2020年技术工作报告 说,数据工程师是技术领域增长最快的工作,空缺职位数量同比增长50%,2022年报告的平均工资为117,295美元。
数据工程师正迅速成为最宝贵的资产之一。让他们下线来修复停机是很昂贵的,而且反复这样做有可能让他们决定离开,到他们将从事更有趣的项目的地方。
数据质量的责任正在变得分散
数据网或分散的团队模式分配了数据质量的责任。
现在数据领域最热门的概念之一是数据网,它在领域数据所有者之间联合数据所有权,这些所有者负责提供他们的数据作为产品,同时促进不同地点的分布式数据之间的沟通。
这样做的好处是使数据团队更接近业务,了解所有相关数据操作的目的;但是,由于其本身的性质,也分散了责任。
一个分散的设置给清晰的沟通和清晰的流程带来了更大的负担。没有一个收件箱或Slack频道,当事情出错时,可以疯狂地呼叫,而这是很可怕的。
如果没有强大的流程,当这些问题跨越领域时,责任的分散会延长解决不良数据或数据停机所需的时间。
饼干的崩溃
由于GDPR等法规的收紧和行业对cookie的摒弃,企业将更加依赖第一方与第三方数据。
这意味着他们将需要收集更多的数据,这些数据将变得更有价值,因为他们不能再依靠谷歌的算法来帮助他们的广告找到合适的消费者。因此,数据宕机开始对营销运营产生较大影响,不良数据的成本也在上升。
数据正在成为一种产品,并且具有超强的竞争性
数据团队正在创造复杂的数据产品,这些产品正在迅速成为客户产品的一部分,并为其公司释放新的价值。
在一些行业中,这已经成为超级竞争。如果你的团队没有产生可操作的洞察力,你将很快被有能力的人超越。
我在媒体领域最常看到这种情况,那里的数据已经成为一场完全的军备竞赛。数据团队的规模和对他们的投资是天文数字。看着这些公司从每小时一批到15分钟一批,再到每5分钟一批,以及现在开始的流媒体,真是令人惊叹。
在这种环境下,没有空间容纳坏数据。在你的数据停机期间,别人正在发布独家新闻,获得点击率,并获得对其受众的宝贵见解。
一盎司的治疗胜过一磅的痛苦
当你考虑到不良数据的成本越来越高,以及大多数组织的数据质量问题比他们想象的要多,增加对 数据质量或数据可观察性的 投资似乎是一个明智之举。
当涉及到内部信号,即是时候投资于数据质量时,一些数据团队是非常敏锐的(从迁移到云数据仓库,如Snowflake或Redshift到让CEO大喊),但像上面提到的外部驱动因素可能会在洗牌中丢失。
我建议采取一种积极主动的方法。考虑如何投资于你的人员、流程和技术,以减轻不良数据的成本上升。