谷歌云代理商:为何DataCatalog是元数据核心?

8 阅读5分钟

TG:@yunlaoda360

谷歌云统一的元数据视图与存储

  • 整合多源数据资产 :自动从 Google Cloud 中的各种服务如 BigQuery、Cloud Storage、Pub/Sub、Dataproc、Composer、Dataflow、Bigtable、Spanner、Vertex AI 等,以及非 Google Cloud 的数据源如 Apache Hive、Presto、Oracle Database 等获取数据资产的技术元数据和业务元数据,并将其整合在一个专用于元数据管理的系统中,为组织提供所有数据资产的统一视图,无论数据位于何处,都能在一个界面上进行查看和管理。
  • 集中存储与管理 :作为元数据的集中存储库,Data Catalog 将来自不同数据源的元数据进行统一存储和管理,便于对元数据进行集中化的控制、更新和维护,确保元数据的一致性和准确性。

谷歌云元数据的自动获取与同步

  • 自动捕获技术元数据 :能够自动从支持的 Google Cloud 产品和服务及非 Google Cloud 数据库中捕获技术元数据,如 BigQuery 表的表名、表描述、列名、列类型、创建日期、最后修改日期等,无需用户手动输入,大大减少了人工操作的工作量和出错的可能性。
  • 持续同步更新 :一旦创建了某个数据资产的目录,Data Catalog 会持续自动同步该数据资产的技术元数据,确保元数据的时效性和准确性,使其能够及时反映数据资产的最新状态和变更情况。

谷歌云强大的元数据搜索与发现能力

  • 用户友好的搜索界面 :提供简单易用且功能强大的搜索界面,利用与 Gmail 和 Google Drive 搜索结果页面类似的界面来呈现数据资产目录的搜索结果,用户可通过关键字、属性、标签等进行快速搜索,并针对数据资产的技术和业务属性应用搜索筛选条件,从而快速找到所需的特定数据集、表或其他数据资产。
  • 智能搜索建议与自动补全 :在用户输入搜索查询时,提供基于字符的自动完成功能,帮助用户更快地构建有效的查询,提高搜索效率。
  • 丰富的搜索结果信息 :除了返回与搜索请求匹配的数据资产目录项或条目之外,还提供如架构、描述等额外的字段信息,帮助用户更好地了解和评估搜索结果的准确性,以便更快地找到合适的数据集并减少验证工作。

u=679084500,988040219&fm=253&fmt=auto.png

丰富的元数据类型管理

  • 支持多样的技术元数据 :涵盖数据资产的各种技术属性和信息,如数据源的位置、文件的存储格式、数据库的表结构、字段类型等,为技术人员提供详细的数据技术细节,帮助他们更好地进行数据开发、管理和维护工作。
  • 灵活的业务元数据管理 :允许用户通过标签等机制添加业务相关的元数据,如业务术语、数据定义、数据质量指标、数据分类、数据所有者等,为业务人员提供了数据的业务背景和上下文信息,使他们能够更好地理解和使用数据,支持数据驱动的决策制定。
  • 自定义元数据模板 :用户可自定义元数据模板和标签,以满足特定业务需求和数据管理规范,实现对元数据的精细化管理和分类,提高元数据的可用性和实用性。

元数据的治理与安全保障

  • 数据治理框架的组件 :作为数据治理框架的重要组成部分,Data Catalog 集成了数据质量和分析功能,通过自动化、根本原因分析、数据集探索的快速强大搜索、添加数据的业务上下文以及通过分析减少数据污染等特性,帮助企业更好地管理数据资产,确保数据的准确性、一致性和可靠性。
  • 严格的访问控制与安全保护 :与 Google Cloud 的安全、权限和审核系统集成,利用 Cloud IAM 等机制提供企业级的访问控制,确保合适的人员才能访问、修改和管理元数据。同时,Data Catalog 遵循源 ACL 进行读取、写入和搜索操作,保护数据免遭篡改和损坏,并帮助满足数据隐私和合规性要求。
  • 敏感数据识别与管理 :可以识别敏感数据并对其启用单独的规则或数据分类政策,增强组织对机密信息的保护能力,确保敏感数据在存储和使用过程中的安全性和合规性。

谷歌云与其他 Google Cloud 服务的紧密集成

  • 与分析和数据处理服务协同工作 :与 BigQuery、Dataflow 等分析和数据处理服务紧密集成,使用户在进行数据查询、分析和处理时能够方便地获取和利用相关数据资产的元数据,提高数据处理的效率和准确性。例如,在 BigQuery 中运行查询时,可直接从 Data Catalog 中获取表的元数据信息,帮助用户更好地理解和使用查询结果。
  • 与数据存储服务的无缝对接 :与 Cloud Storage、Spanner、Bigtable 等数据存储服务深度整合,自动同步这些服务中数据资产的元数据,为用户提供多样化的数据存储选择的同时,确保元数据的完整性和一致性,方便用户在不同存储服务之间进行数据管理和迁移。
  • 与数据管理工具的联动 :与 Dataplex、Dataform 等数据管理工具配合使用,共同实现数据的全生命周期管理。例如,Dataplex 可以利用 Data Catalog 中的元数据进行数据湖的管理和治理,Dataform 可以基于元数据进行数据模型的设计和开发。