公共部门数据网格:支柱、架构与实践

0 阅读11分钟

理解公共部门中的数据网格:支柱、架构与示例

想象一下国防情报、公共卫生记录、城市规划模型等项目背后的数据。政府机构时刻都在生成海量数据。当数据分布在云平台、本地系统或卫星、应急响应中心等专用环境中时,情况会变得更加复杂。信息难以查找,更不用说高效使用了。由于不同团队使用多种应用和数据格式,严重缺乏互操作性。

尽管他们努力构建数据驱动的组织,但根据某机构最近的一项研究,65% 的公共部门领导者仍然难以持续、实时、大规模地使用数据。

“这拖慢了我们的工作效率,而我们的工作大多是在紧急情况下完成的,这很糟糕,”一位公共部门领导者对某机构表示,“我们需要尽快获取信息。”

数据堆积如山,访问成为瓶颈。那么,公共部门机构如何摆脱那些集中式孤岛的复杂性?数据网格提供了一种替代性的数据组织方式,可能是答案。

什么是数据网格?

简而言之,数据网格克服了孤岛问题。从整个网络收集的数据可以在生态系统的任何或所有点被检索和分析——只要用户有权限访问它。它提供了一个统一且分布式的层级,简化并标准化了数据操作。

数据网格的四大支柱

数据网格建立在四个关键原则之上:

  • 域所有权:机构和部门如何管理自己的数据
  • 数据即产品:域所有者确保其数据集高质量且易于访问
  • 自助数据平台:让内部和外部团队无需等待IT部门即可查找和使用高质量数据
  • 联邦计算治理:确保跨系统的一切顺畅、安全地运行

让我们更详细地了解每一个。

域所有权

数据所有权不再依赖中央IT团队来管理所有数据,而是分布在政府机构和部门之间。本质上,您需要构建反映机构自身组成的技术团队。您希望最熟悉该数据的人拥有它。这可以应用于公共卫生、国防、城市规划等领域——几乎涵盖所有公共部门用例。

例如,某网络安全与基础设施安全局采用数据网格方法,从数百个联邦机构获取安全数据的可见性,同时允许每个机构保留对其数据的控制权。

数据即产品

每个数据集都被视为具有清晰文档和质量标准的产品。拥有数据的部门需要确保数据易于访问和组织,以便其他部门需要时可用。换句话说,他们负责并承担责任,将该数据作为可用的产品进行共享。

从政府角度来看,这可能是人口普查信息、应急响应数据或情报报告等。重要的是,当其他团队来寻找时,这些经过整理的数据将随时可用,他们无需花时间清理或验证。

自助数据平台

部门被要求承担很多工作,他们需要方便的平台,使数据可被他人访问。可搜索的目录便于数据发现,查询工具用于实时分析,用户自行清理和集成数据的能力,以及通过仪表板和API分享见解,这些都是可以使用的工具。

他们还需要内置的治理来强制执行访问控制。

联邦计算治理

我们已经确定每个部门都控制着自己的数据。然而,数据网格仍然需要总体治理协议来保证安全并防范风险。

这些安全控制应内置到检索数据的系统中,而不是由每个部门单独应用。系统应在搜索时检查用户权限,并从一开始就确保人们只能看到他们被允许访问的数据。

在公共部门,这可以是医疗数据中的隐私法规,也可以是国防系统中的机密信息。

数据网格架构

数据网格架构是一个框架,它将数据网格的各个支柱统一到一个管理分布式数据的过程中。

实施数据网格架构可以减少协作过程中的摩擦。由于其更以用户为中心的方法,这对于处理特定领域数据以进行模型训练和分析的团队来说是一个改变游戏规则的方法。

尽管存在多个平台和实施团队,数据网格有助于实现大规模、更高效的数据处理和治理。数据网格架构创造了更多的自主权和更多的数据民主化——如果您拥有可扩展、自助式的数据可观测性。数据可观测性让团队能够在单一管理平台下管理所有数据。

有效的数据可观测性内置于数据网格的架构中。它使团队能够从他们收集的所有数据中获得可操作的见解。可以这样理解:数据可观测性关注数据的健康和完整性,而数据网格架构关注数据的去中心化管理。要管理它,您必须能够详细地看到它。

数据网格与其他方法的比较

数据网格与其他形式的分析数据架构和存储相比如何?让我们看看另外两种经常被比较的方法:数据结构和数据湖。

数据网格 vs. 数据结构

数据网格和数据结构在采取去中心化方法、在远程站点收集数据方面类似。然而,数据结构将在一个站点收集的数据复制到另一个站点。这些数据作为单独的记录共享,除非被能够理解它的东西消费,否则无法与其他记录关联。这种方法常常导致数据孤岛。

另一方面,数据网格方法不依赖复制数据,而是在摄取时将数据本地索引到一个分布式平台中,用户可以在本地和跨远程站点搜索数据。在这种模型中,数据在搜索平台层统一。数据只被索引一次,然后通过这个统一层供任何授权用户或用例使用。

数据网格 vs. 数据湖

您可能已经注意到数据中有很多与水相关的隐喻:数据流、数据管道等。数据像水一样,可以被收集、存储、过滤和分发——有时高效,有时混乱。

就像湖泊从多个水源收集水一样,数据湖收集数据并将其保存以备将来使用。换句话说,它是一个存储环境,用于存放结构化、半结构化或非结构化数据的任意组合。

数据湖有时对数据网格域所有者在处理和整理其数据产品时有所帮助。他们可以使用数据湖来长期存储尚未有特定用途的大型非结构化数据集(例如卫星图像或公共记录)。但如果数据湖变得杂乱无章且难以导航,它就会变成一个数据沼泽——浑浊、混乱,难以从中提取价值。

数据网格与人工智能

数据网格可以为公共部门机构提供一种民主化人工智能和机器学习的方法。传统上,数据科学团队作为中心化枢纽运作,从多个来源提取数据以开发机器学习模型。然而,如前所述,此过程可能导致重复工作和不一致,给模型可重现性带来挑战。

通过使用数据网格翻转该模型,并将AI开发嵌入到域团队中,您可以在源头清理和精炼数据,并创建其他部门可以利用的AI驱动型数据产品。

以国家灾害响应为例。嵌入应急响应团队的AI模型通常会分析实时卫星图像、传感器数据甚至社交媒体报告,以确定受灾最严重的地区。借助数据网格,从政府机构到急救人员的不同机构可以立即访问这些信息,无需等待中心化处理,从而缩短响应时间。

数据网格还改善了AI治理,因为它从一开始就整合了AI,标准化了模型验证、偏差检测、可解释性和模型漂移监控等任务。

如何为公共部门实施数据网格

每个公共部门组织都有独特的数据需求,这就是为什么一刀切的数据孤岛对内部和外部用户来说可能既缓慢又令人窒息。三分之二的公共部门领导者表示,他们对可用的数据洞察不满意。

数据网格可以根据每个公共部门机构(从国防到国家安全或联邦、州和地方政府)的独特需求进行定制。

要开始使用数据网格,公共部门机构需要遵循几个步骤:

  1. 将数据责任分配给特定部门。
  2. 将数据集视为有良好文档记录、可访问的资产,设计供内部和外部使用,并确保其符合法规要求。
  3. 实施工具,让机构、分析师和政策制定者无需依赖中央IT团队即可轻松访问和分析数据。
  4. 跨机构执行治理,同时牢记FedRAMP、CMMC和零信任等框架。
  5. 最后,鼓励跨组织共享数据,以做出更好的决策并改善公共服务,同时保持安全控制。

政府和国防应用

数据网格非常适合政府和国防领域,在这些领域中,庞大、分布式的数据集必须被安全地实时访问和分析。

在国防领域,它有助于更快速地收集情报和管理资产,使现场操作员能够根据最新数据采取行动。在公共卫生领域,它可以帮助快速整合来自医院或研究实验室的流行病学数据以应对疫情。交通部门可以分析跨城市的交通和天气数据。教育部门可以查看过去十年儿童的考试成绩,并将其与其他数据(如远程学习与面对面学习的时间)进行交叉比对。

以某国海军为例:其推动数字现代化取决于“安全地将任何信息从任何地方移动到任何地方”以实现信息优势的能力。但传统的集中式数据存储风险太大,尤其是在气隙和拒绝、降级、间歇性和有限环境中。在这种情况下,全局数据网格可以提供帮助,允许数据保留在其源头,同时在整个海军庞大的作战环境中仍可搜索和访问。这种去中心化方法即使服务器或数据中心发生故障也能保持运营弹性,并提供任务关键型数据的统一视图,而无需移动或复制数据。

数据网格在某机构中的实践

作为搜索人工智能公司,某机构的数据分析平台作为一个强大的全局数据网格,在一个统一系统中提供机器学习、自然语言处理、语义搜索、告警和可视化。换句话说,某机构通过让机构全面了解其数据,以及摄取、组织、访问和分析数据的能力,起到统一的作用。

三个关键特性使某机构脱颖而出:

  • 跨集群搜索:允许您针对一个或多个远程集群运行单个搜索请求
  • 可搜索快照:为您提供一种经济高效的方式来访问和查询不常用的历史数据
  • 基于角色的访问控制:提供集成的安全性

某机构的数据网格方法也可以作为现代安全框架(如零信任)的基础,并为数据驱动的运营开辟新的可能性。

**了解更多关于某机构如何帮助政府、医疗保健和教育团队以速度、规模和相关性最大化数据价值的信息。**FINISHED