主动元数据是Gartner的最新类别,它是当今增强型数据目录的一个变革性飞跃。

元数据管理刚刚发生了变化,Gartner取消了其元数据管理解决方案的魔力象限,取而代之的是主动元数据市场指南。看到区别了吗?随着这一变化,Gartner刚刚将主动元数据作为未来的一个新类别。
与数据生态系统中的任何新类别一样,这一宣布伴随着大量的兴奋、一些健康的怀疑和大量的问题。
- 究竟什么是主动元数据?
- 它与我们之前看到的增强型数据目录和其他技术有什么不同?
- 一个活跃的元数据平台是什么样子的?
我以前写过关于什么是主动元数据平台及其关键特征的文章。今天,我想从这个抽象的讨论中更进一步,描绘出一个主动元数据平台的样子,分解出关键的组成部分,并给出一些主动元数据的实际使用案例。
TL;DR:主动元数据平台是什么样子的?

一个主动元数据平台的架构。(图片来自Atlan)。)
在我看来,一个活跃的元数据平台有5个关键组成部分。
- 元数据湖。一个统一的存储库,以原始和处理过的形式存储各种元数据,建立在开放的API上,由知识图谱提供支持。
- 可编程智能机器人。一个框架,允许团队创建可定制的ML或数据科学算法来驱动智能。
- 嵌入式协作插件。一套由通用元数据层统一的集成,将数据工具与每个数据团队的日常工作流程无缝集成。
- **数据流程自动化。**构建、部署和管理工作流程自动化机器人的简单方法,将模仿人类的决策过程来管理数据生态系统。
- **逆向元数据。**通过协调,使相关的元数据随时随地提供给最终用户,而不是在一个独立的目录中。
1.元数据湖。一个单一的元数据中央存储
几个季度前,我曾写过一个概念,那就是 元数据湖一个统一的存储库,以原始和进一步处理的形式存储各种元数据,这些元数据可以用来驱动我们今天所知的和未来的用例。
主动元数据是建立在主动寻找、充实、清点和使用所有这些元数据的前提下的,把一个传统的 "被动 "技术变成真正的行动导向。
作为任何主动元数据平台的基石,元数据湖有两个关键特征。
- 开放的API和接口。元数据湖需要易于访问,不仅仅是作为一个数据存储,而是通过开放的API。这使得在现代数据堆栈的每个阶段都可以非常容易地利用单一的元数据存储,以推动各种用例,如发现、观察和传承。
- **由知识图谱提供支持。**当数据资产之间的所有联系变得活跃时,元数据的真正潜力就会被释放出来。知识图谱架构--它为一些世界上最大的互联网公司如谷歌、Facebook和Uber提供动力--是使这些元数据连接变得生动的最有希望的候选者。
2.2. 可编程智能机器人
我们正在快速接近一个元数据本身正在成为大数据的世界,而对这些元数据的理解是创建现代数据管理生态系统的关键。
元数据智能有可能影响数据生命周期的每个方面。它可以解析SQL查询日志,自动创建列级线。它可以自动识别PII(个人可识别信息)数据,以保护私人信息。它可以通过自动检测数据的离群值和异常值,在坏数据抓住我们之前,抓住它。在过去的几年里,元数据在这方面出现了一些创新,"增强的 "数据目录已经变得越来越流行。
然而,在所有的炒作中,我相信到目前为止,关于智能如何应用于数据管理,我们有一点是错误的--一刀切的做法并不适合所有人。
每个公司都是独一无二的。每个行业都是独一无二的。每个团队的数据都是独一无二的。
在最近一次与一位数据领导者的通话中,他批评了他检测数据质量异常的工具。有时候,这个工具会向我们发出关于模式变化和质量问题的有用的警报。其他时候,它对一些不应该叫的东西大喊大叫,真的让我们的数据工程团队感到沮丧"。
我并不责怪这个工具。现实情况是,每个机器学习算法的输出都是进入训练数据的一个函数。没有一种算法会神奇地创造上下文,识别异常情况,实现智能数据管理的梦想--并在每个行业、每个公司和每个用例中100%地取得成功。尽管我希望有,但没有银弹。
这就是为什么我相信,主动元数据平台的智能化的未来不是一个能神奇地解决我们所有问题的单一算法。相反,它是一个框架,允许团队创建可编程的智能机器人,可以很容易地根据不同的环境和用例进行定制。
这里有几个可编程智能机器人的例子。
- 随着安全和合规性要求成为主流,公司将不得不遵循更多的规则--例如,针对特定行业的规则,如针对医疗数据的HIPAA和针对银行业务的BCBS 239,或者针对当地的规则,如欧洲的GDPR和加州的CCPA。机器人可以用来根据适用于每个公司的法规来识别和标记敏感列。
- 对其数据集有特定命名惯例的公司可以创建机器人,根据预设规则自动组织、分类和标记其数据生态系统。
- 公司可以采用开箱即用的可观察性和数据质量算法,并根据他们的数据生态系统和用例进行定制。
可编程智能的用例是无穷无尽的,我对未来的发展感到非常兴奋!"。
3.嵌入式协作插件
今天,数据团队比以往更加多样化。他们是由数据工程师、分析师、分析工程师、数据科学家、产品经理、商业分析师、公民数据科学家等组成的。
这些不同的数据团队使用同样不同的数据工具,从SQL、Looker和Jupyter到Python、Tableau、dbt和R,应有尽有。再加上大量的协作工具(如Slack、JIRA和电子邮件),你已经使数据专业人员的生活成为一场噩梦。
由于数据团队的基本多样性,数据工具需要被设计成与每个团队的日常工作流程无缝整合。
这就是嵌入式协作的想法的活力所在。嵌入协作不是从一个工具跳到另一个工具,而是在每个数据团队成员居住的地方进行工作,减少摩擦和上下文切换。

嵌入协作可能是什么样子的。(图片由Atlan提供)。
这里有几个例子说明嵌入式协作可能是什么样子。
- 如果你可以在得到一个链接时请求访问一个数据资产,就像使用谷歌文档一样,而所有者可以在Slack上得到这个请求,并在那里批准或拒绝它,那会怎么样?
- 如果你在检查数据资产时需要报告一个问题,你可以触发一个与工程团队的JIRA工作流程完美结合的支持请求,那会怎么样?
主动元数据平台中的行动层将使嵌入式协作最终变得生动。我把这个层看作是现代数据栈的Zapier--由共同的元数据层统一,并允许团队为他们自己独特的工作流程定制应用程序。
4.数据流程自动化
几年前,一种叫做机器人流程自动化(RPA)的新类别工具在企业界掀起了一场风暴。从UiPath来看,RPA是 "一种软件技术,可以很容易地建立、部署和管理软件机器人,模仿人类与数字系统和软件互动的行动"。
随着数据结构、数据网格和DataOps等概念成为我们思考数据平台的主流,它们将催生对数据流程自动化(DPA)的需求--这是一种构建、部署和管理工作流程自动化机器人的简单方法,将模拟人类的决策过程或行动来管理你的数据生态系统。
你是否曾因周一早上的仪表盘加载速度而感到沮丧?或者更糟糕的是,在月末被AWS的疯狂高额账单吓到?
有了主动元数据平台,不难想象这两种情况都不会再发生的世界。一个真正的主动元数据平台可以向邻近的数据管理工具推荐参数化指令,用于资源分配和作业管理等操作。
例如,通过利用来自各种来源的元数据--如来自 BI 工具的顶级 BI 仪表盘以及峰值使用时间,来自数据管道工具的过去数据管道运行统计,以及来自仓库 的过去计算性能--你可以想象这样一个世界:主动元数据平台不只是推荐用于扩展 Snowflake 仓库的参数,而是实际利用 DPA 来分配仓库资源。
5.逆向元数据
我相信,过去几年最伟大的事情之一是真正的 "现代数据栈 "公司和企业家的崛起,他们认为惊人的用户体验胜过一切。
旧时代都是关于 "价值获取 "的,而新一代的企业家则专注于 "价值创造"--终端用户体验是第一位的。现代的数据堆栈公司越来越关注彼此之间真正的合作,以整合他们的产品路线图并创造更好的用户体验。
主动元数据是真正开启这些伙伴关系的关键,而这正是我认为 "反向元数据"将改变游戏的地方。
反向元数据是指元数据不能在 "独立的数据目录 "中使用。相反,它是关于让相关的元数据提供给终端用户,无论何时何地,他们需要它,以帮助他们更好地完成他们的工作。
例如,在Atlan,我们与Looker的反向元数据整合直接在Looker中显示 "上下文"(如谁拥有一个仪表盘,指标定义和文档,以及更多)。

Looker中的反向元数据。(GIF来自Atlan)。
主动元数据平台可以帮助协调整个现代数据堆栈中的有用元数据,使堆栈中的所有各种工具更加有用--而不需要在每个工具之间投资定制集成。
总结
在我看来,Gartner报告中最有预见性的一句话是:"独立的元数据管理平台将从增强的数据目录重新聚焦到元数据'任何地方'的协调平台"。
我们对主动元数据的研究才刚刚开始,因为我们要一起努力弄清楚它在今天和明天的数据生态系统中可能扮演的角色。我希望这篇文章能照亮这个未来的模样,让它从抽象变成更真实的东西。
想聊聊主动元数据的无限可能性吗?我很乐意和你一起喝杯咖啡。请联系 Prukalpa 或我们的团队 阿特兰.
P.S. 如果你想在我发表下一篇文章时得到通知,请订阅我的 数据的人类--Substack!
The Anatomy of an Active Metadata Platform最初发表于Towards Data Scienceon Medium,在那里人们通过强调和回应这个故事继续对话。