如何选择一个云数据仓库
现代数据仓库可以同时查询结构化数据和半结构化数据,甚至可以将历史数据和流式实时数据结合起来进行分析。
作者: Martin Heller
InfoWorld特约编辑
思想库
企业数据仓库,或称EDW,是整个企业所有历史数据的统一数据库,为分析而优化。如今,实施数据仓库的企业通常会考虑在云端而不是在驻地创建数据仓库。许多人还考虑使用支持查询的数据湖,而不是传统的数据仓库。第三个问题是,你是否想把历史数据与流式实时数据相结合。
数据仓库是一个分析性的,通常是关系型的,由两个或更多的数据源创建的数据库,通常用于存储历史数据,其规模可能达到PB。数据仓库通常有大量的计算和内存资源,用于运行复杂的查询和生成报告,并且通常是商业智能(BI)系统和机器学习的数据源。
[也在InfoWorld上:如何选择云数据库] 。
交易型操作数据库的写吞吐量要求限制了你可以创建的索引的数量和种类(更多的索引意味着每条添加的记录有更多的写和更新,以及更多可能的争夺)。这反过来又减慢了对操作数据库的分析查询。一旦你把你的数据导出到数据仓库,你可以在数据仓库中为你关心的一切建立索引,以获得良好的分析查询性能,而不影响单独的OLTP(在线交易处理)数据库的写入性能。
数据集市包含面向特定业务线的数据。数据集市可以依赖于数据仓库,也可以独立于数据仓库(即从操作数据库或外部来源获取),或者是两者的混合体。
数据湖,以其原始格式存储数据文件,本质上是 "读取模式",这意味着任何从数据湖读取数据的应用程序都需要在数据上施加自己的类型和关系。另一方面,传统的数据仓库是 "写的模式",意味着数据类型、索引和关系是在数据仓库中存储时强加给数据的。
继续阅读这篇文章 现在注册
获得免费访问
了解更多现有用户登录