语义学对数据湖库的重要性
没有语义层,数据湖就会变成数据沼泽。有了语义,用户就能从数据湖架构中获得大量的好处。
如果没有语义一致性,数据湖库就不会存在,尤其是在企业规模上。提供通用语义层不仅是这种新兴数据架构的关键属性之一,也是其主要的推动因素之一。
事实上,数据湖和数据湖馆之间的关键区别在于,后者提供了对数据的重要语义理解,因此用户可以查看和理解这些企业资产。它为数据治理、元数据管理、基于角色的访问和数据质量铺平了道路。
没有这个语义层,数据湖就只是传说中的数据沼泽。
然而,有了语义,用户就可以从数据湖架构中获得大量的好处。用户可以帮助自己使用可扩展的云存储和处理平台,为交易和分析/BI用例存储所有数据,并全面查询数据以支持现代机器学习和人工智能应用。
因此,数据领域中一些最受尊敬的供应商--包括谷歌和亚马逊网络服务--正在接受这一概念,并向其各自的用户群提供可消费的选项。
知识图谱的链接数据方法是以提供数据的细化语义理解的技术为前提的。这些技术擅长于提供统一的语义层,使数据湖之家成为现实--也是人工智能时代管理数据的最佳选择之一。
数据仓库的基础
在有效语义的支持下,数据湖屋是传统数据仓库和数据湖的结合。 数据仓库被用于整个数据领域,有许多强项。他们擅长整合数据,并为上述数据治理和数据质量因素提供语义一致性。然而,它们的主要弱点是它们是专门为结构化数据设计的,很难用于当今人工智能所需的一系列半结构化和非结构化的数据。此外,它们依赖于基于复制数据的传统ETL方法,这是很昂贵的,并加剧了数据质量。
数据湖库用户不需要多个数据副本进行转换或传统的商业智能方法,这提升了数据质量。此外,这些存储库在半结构化和非结构化的数据上运行良好,这些数据是构建机器学习和人工智能应用的理想选择,但在数据仓库中使用却很困难。语义知识图谱技术善于协调任何种类的数据(跨格式、模式和结构变化),同时统一描述它们的术语。将这一优势应用于数据湖房屋,提供了一个优秀的语义层,企业可以用它来查看和操作数据资产。
对数据湖的改进
数据湖的主要好处是,企业可以将其部署在云中,并将所有数据--以其原始格式--存储在其中。它们放弃了昂贵的基础设施和耗时的ETL过程,而这些都是为了将数据严格按照单一模式整合到数据仓库中而必须的。此外,支持的数据种类繁多,可以很好地建立机器学习模型。
然而,数据湖对所有这些不同的数据源的整合比对它们的定位要少。他们没有解决语义、元数据一致性和数据治理的机制,这就是为什么出现了数据沼泽这一名称。
语义技术
数据湖中心保留了上述数据湖的优点,同时纠正了其缺点。它们有一个开放的架构,因此公司可以对存储在湖心岛的数据使用任何他们想要的工具。然而,它们以语义的一致性来提供这一优势,这对于加强数据治理和数据质量来说是完美的。在这方面,知识图谱的语义技术是值得称赞的。它们的前提是给每个单独的数据点 一个独特的、机器可读的标识符,并用商业友好术语的自我声明式语义语句(三要素)来描述它们。
因此,业务用户可以理解这些数据的含义,而这些相同的三元组有助于实施基于角色(或任何其他属性)的数据访问,以加强数据治理。此外,这些语义方法涉及统一的词汇表和分类法来描述数据中的概念--这两者都大大改善了数据资产的语义,并作为数据质量的起点。这些特点对于元数据管理来说是非常好的;它们确保业务部门或组织使用相同的术语来统一描述数据及其对业务目标的意义。
完美的匹配
语义技术还以统一的数据模型为基础,这些模型自然而然地发展,以纳入新的模式、数据源和业务要求,这正是数据湖库所需要的。链接数据方法允许将元数据和数据脉络链接到这些模型上,以加强这些数据治理的主体。在实现用户查看和理解数据所需的语义层方面,没有比这些链接数据技术更好的方法了,这对于使数据湖库取得成功至关重要。