为什么数据仓库对数据工程师很重要。
什么是数据仓库?
数据仓库(DW)是收集和管理来自不同来源的数据的过程,以提供有意义的业务洞察力。数据仓库通常用于连接和分析来自异质来源的业务数据。数据仓库是商业智能系统的核心,是为数据分析和报告而建立的。
它是一种技术和组件的融合,有助于数据的战略使用。它是企业对大量信息的电子存储,是为查询和分析而不是交易处理而设计的。它是一个将数据转化为信息的过程,并及时提供给用户,使其产生变化。
数据仓库系统也被称为以下名称。
- 决策支持系统(DSS)
- 行政信息系统
- 管理信息系统
- 商业智能解决方案
- 分析性应用
- 数据仓库
数据仓库如何工作?
数据仓库作为一个中央储存库,信息从一个或多个数据源到达。数据从交易系统和其他关系型数据库流入数据仓库。
数据可能是。
- 结构化的
- 半结构化的
- 非结构化的数据
数据被处理、转换和摄取,这样用户就可以通过商业智能工具、SQL客户端和电子表格访问数据仓库中的处理后的数据。数据仓库将来自不同来源的信息合并到一个综合数据库中。
通过将所有这些信息合并到一个地方,一个组织可以更全面地分析其客户。这有助于确保它已考虑到所有可用的信息。数据仓库使数据挖掘成为可能。数据挖掘是在数据中寻找可能导致更高销售和利润的模式。
数据仓库的类型
数据仓库(DWH)的三种主要类型是。
1.企业数据仓库(EDW)。
企业数据仓库(EDW)是一个集中的仓库。它为整个企业提供决策支持服务。它提供了一个统一的方法来组织和表示数据。它还提供了根据主题对数据进行分类的能力,并根据这些划分给予访问。
2.2.操作性数据存储。
操作性数据存储,也被称为ODS,是在数据仓库和OLTP系统都不支持组织的报告需求时需要的数据存储。在ODS中,数据仓库是实时刷新的。因此,它被广泛用于日常活动,如存储员工的记录。
3.3.数据集市。
数据集市是数据仓库的一个子集。它专门为一个特定的业务线设计,如销售、财务、销售或财务。在一个独立的数据集市中,数据可以直接从来源收集。
数据仓库的组成部分
数据仓库的四个组成部分是。
**负载管理器。**负载管理器也被称为前端组件。它执行与提取和加载数据到仓库有关的所有操作。这些操作包括转换,以准备进入数据仓库的数据。
仓库管理员。仓 库管理员执行与仓库中的数据管理有关的操作。它执行的操作包括分析数据以确保一致性,创建索引和视图,生成反规范化和聚合,转换和合并源数据以及归档和打包数据。
**查询管理器。**查询管理器 ,也被称为后端组件。它执行所有与用户查询管理有关的操作。这个数据仓库组件的操作是直接查询到适当的表,以安排查询的执行。
终端用户访问工具。
这被分为五个不同的组别,如:1.数据报告 2.查询工具 3.查询工具 3.应用开发工具 4.EIS工具,5.OLAP工具和数据挖掘工具。
谁需要数据仓库?
所有类型的用户都需要DWH(数据仓库),例如。
- 依赖大量数据的决策人员
- 使用定制的、复杂的流程从多个数据源获取信息的用户。
- 它也被那些希望用简单的技术来访问数据的人所使用。
- 对于那些希望用系统的方法来做决策的人来说,它也是必不可少的。
- 如果用户希望在大量的数据上有快速的表现,这是报告、网格或图表的需要,那么数据仓库就证明是有用的。
- 如果你想发现数据流和分组的 "隐藏模式",数据仓库是第一步。
数据仓库的用途是什么?
这里,是数据仓库最常见的使用部门。
航空公司。
在航空公司系统中,它被用于运营目的,如机组人员的分配,路线盈利能力的分析,常客计划的推广,等等。
银行业。
它被广泛用于银行业,以有效管理桌面上的资源。少数银行还用于市场研究,产品和业务的性能分析。
医疗保健。
医疗保健部门也使用数据仓库来制定战略和预测结果,生成病人的治疗报告,与合作的保险公司、医疗援助服务等分享数据。
公共部门。
在公共部门,数据仓库被用于收集情报。它帮助政府机构维护和分析每个人的税收记录、健康政策记录。
投资和保险部门。
在这个部门,仓库主要用于分析数据模式,客户趋势,并跟踪市场动向。
保留链。
在零售连锁店,数据仓库被广泛用于分销和营销。它还有助于跟踪项目,客户购买模式,促销活动,也用于确定定价政策。
为什么我们需要数据仓库?优点和缺点
数据仓库(DWH)的优势。
- 数据仓库允许商业用户在一个地方快速访问来自某些来源的关键数据。
- 数据仓库提供关于各种跨职能活动的一致信息。它也支持临时报告和查询。
- 数据仓库有助于整合许多数据来源,以减少对生产系统的压力。
- 数据仓库有助于减少分析和报告的总周转时间。
数据仓库的缺点。
- 对于非结构化数据来说,不是一个理想的选择。
- 数据仓库的创建和实施肯定是时间混乱的事情。
- 数据仓库可能很快就会过期
- 难以对数据类型和范围、数据源模式、索引和查询进行修改。
- 数据仓库看起来很容易,但实际上,对于普通用户来说,它太复杂了。
数据仓库的未来
- 监管约束的变化可能会限制结合不同数据源的能力。这些不同的来源可能包括难以存储的非结构化数据。
- 随着数据库规模的增长,对什么是非常大的数据库的估计也在继续增长。构建和运行数据仓库系统是很复杂的,它的规模一直在增加。今天可用的硬件和软件资源不允许在线保存大量的数据。
- 多媒体数据不能像文本数据那样容易操作,而文本信息可以通过今天的关系型软件进行检索。这可以成为一个研究课题。
数据仓库工具
市场上有许多数据仓库工具。这里,有一些最突出的工具。
1.MarkLogic。
MarkLogic是有用的数据仓库解决方案,使用一系列的企业功能,使数据集成更容易和更快。这个工具有助于执行非常复杂的搜索操作。它可以查询不同类型的数据,如文档、关系和元数据。
www.marklogic.com/product/get…
2.甲骨文。
Oracle是业界领先的数据库。它为企业内部和云中的数据仓库解决方案提供了广泛的选择。它通过提高运营效率来帮助优化客户体验。
3.亚马逊RedShift。
亚马逊Redshift是数据仓库工具。它是一个简单而经济的工具,使用标准的SQL和现有的BI工具来分析所有类型的数据。它还允许使用查询优化技术,对PB级的结构化数据运行复杂的查询。
这里是一个有用的数据仓库工具的完整列表。
关键的学习
- 数据仓库(DWH),也被称为企业数据仓库(EDW)。
- 数据仓库被定义为一个中央存储库,信息来自一个或多个数据源。
- 数据仓库的三种主要类型是企业数据仓库(EDW)、运营数据存储和数据集市。
- 数据仓库的一般状态是离线操作数据库、离线数据仓库、实时数据仓库和综合数据仓库。
- 数据仓库的四个主要组成部分是:负载管理器、仓库管理器、查询管理器、终端用户访问工具。
- 数据仓库被用于不同的行业,如航空、银行、医疗保健、保险、零售等。
关于数据仓库及其类型的综合指南最初发表在Dev Genius的Medium上,人们通过强调和回应这个故事继续对话。