现代数据目录如何使数据工作更容易、更快、更有价值?

123 阅读7分钟

数据目录死了吗?绝对不是。但现在是时候改变我们对数据目录的思考方式了。

图片来源:Hansjörg KelleronUnsplash

数据目录,以及事实上在过去十年中围绕元数据管理形成的整个生态系统,都需要被唤醒。作为一家这样的公司的首席产品官,这句话写起来可能很困难,但并不意味着它就不真实。

数据目录死了吗?远远不是。你需要改变你对数据目录的思考方式吗?很有可能,是的。

具有讽刺意味的是,推动你的数据团队之间共享理解的最重要的解决方案之一,往往是最被误解的。我写的当然是关于数据目录的。

这些工具,就像十年前开发的大多数数据管理产品一样,是为了处理缓慢变化的关系型数据。目录的部署是为了服务于数据治理和合规性,而不是发现和民主化。无谓的官僚主义和程序往往阻碍了数据分析师寻找和理解分析所需的数据。

近年来,数据目录已经有了很大的发展,但今天的数据工作需要更多的东西,而这一领域的许多传统产品还没有满足这一需求。现代数据目录必须是实现数据运营的强大工具,它们必须支持分布式架构,而且它们必须能够随着企业内部对数据和知识的需求增长而扩展。

最近,数据质量和可观察性工具的领先供应商Monte Carlo的Barr Moses认为,数据目录正在经历一场身份危机。我喜欢这篇文章,不仅仅是因为它提到了我最喜欢的大流行前的活动之一--在潜水酒吧喝酒。她把部署数据目录比作一个酒保要求你自己调酒。这个比喻用在传统的数据目录上是很好的,而我绝对喜欢我的鸡尾酒是专业调制的。

这篇文章的本质,以及事实上我从客户那里得到的许多问题,是关于改善数据工程师的日常工作经验。这些人肩负着满足更严格的SLA的艰巨任务,同时使用更复杂和不断变化的工具。最终,它归结为一个简单的问题:现代数据目录应该如何使数据工作更容易、更快、更有价值,为你的组织服务?下面我谈谈巴尔在她的文章中提到的几个方面。

  • 自动化--可操作的数据需要自动化,而不仅仅是简单地扫描模式和计算查询日志中引用某个表的频率。在data.world,我们依靠知识图谱从所有可用的元数据中进行推断,并在出现需要立即关注的问题时自动提醒数据工程师和管理人。
  • **可扩展性--**现代数据目录必须超越结构化数据模型,以涵盖从API到流到流程的一切,甚至是相互关联的措施和业务领域。如果你对被编入目录的内容施加限制,你就有可能失去数据的潜在关键背景。知识图谱和开放标准再次成为答案--给你一个灵活和可扩展的元数据模型,可以真正为你的组织的所有数据资产编目。
  • **分布式架构--**数据引力和应用孤岛使统一数据的概念成为白日梦。一个现代的数据目录必须接受数据网状模型,并支持虚拟化和访问数据。 联合的访问数据。数据分析师应该能够根据数据的意义,而不是其驻留的数据存储来探索和理解数据。同时,数据工程师和管理人应该对数据的使用方式有完整的脉络、可审计性和指标,以确保安全和合规。我们称之为 "最后一公里治理",它为真正的数据供应链效率扫清了最后一道障碍。

你的数据和分析的前台

如果数据仓库、管道和转换工具是数据和分析的生产线,那么数据目录就是前台。生成数据质量、可观察性、分类和世系等元数据的DataOps应用程序创建的信息需要被数据科学家和工程师,即前台工作者所消费。但他们如何在不挖掘十个不同的应用程序的情况下获得这些信息?就像一个伟大的CRM工具对销售的作用一样,数据目录必须把这些信息放在他们的指尖上,以实现伟大的数据发现和可重复的分析。

对于数据目录来说,要克服他们的 "身份危机",真正成为前台--如果你愿意的话,是一个知识操作系统--他们必须具备以下品质。

  • **信息辐射器 -**一个一站式的解决方案,可以自动聚合关键任务的数据运营元数据,并以快速消费的方式呈现给你的数据和分析社区。一个基于知识图谱的元数据模型可以快速、轻松地纳入关于你的数据的新信息,使这项任务更加容易。
  • 协作中心--一个与你的数据资产有关的行动和工作的中央信息交流中心。通过将数据生产者和消费者聚集在一起,使他们能够实时地共同采取行动,你可以反复地克服阻碍可重复和可信赖的分析的知识差距,而不需要手动记录工作的繁琐。支持具有虚拟化和联合查询架构的数据网状结构,以及最后一英里的数据治理,对于真正鼓励摆脱物理数据存储桎梏的数据协作探索至关重要。
  • 开放的生态系统--你的数据架构中现在流行的工具是你的团队一年前使用的吗?三年前呢?数据和分析生态系统正在迅速变化,因此,作为DataOps的前台的现代数据目录建立在开放和可扩展的标准上是至关重要的。这可以确保你能迅速将新的工具纳入你的工作流程,这样就不会出现新的孤岛。

最后,也是最重要的,如果你的数据人员不使用目录,这些都不重要。事实上,我相信数据目录可以而且应该为整个数据和分析团队以及依靠他们的工作来做出关键业务决策的利益相关者 "激发快乐"。这是我们data.world的精神的一部分,数据目录的采用不仅是衡量客户满意度的标准,也是我们自己成功的晴雨表。

我们的业务建立在教客户如何采用敏捷数据治理和DataOps上,就像早期敏捷软件工具的传播者所做的那样,通过帮助他们获得早期成功,专注于特定的使用案例,而不是 "煮沸海洋"。

正如巴尔在她的文章中写道,"数据目录只有在设计时考虑到目的时才会有用"。在data.world,我们的目的是使人们、团队和公司能够将复杂的、难以捉摸的数据和元数据转化为可用的知识,推动商业和社会的发展。这是一杯成功的鸡尾酒--你不需要自己去调配。