数据库--数据仓库、分布式数据库

229 阅读6分钟

一、数据仓库

1.1.基本概念

  • 是一个用以更好地支持企业(或组织)决策分析处理的、面向主题的、集成的、不可更新的(相对稳定的)、随时间不断变化的数据集合
  • 本质上和数据库一样,是长期储存在计算机内的、有组织、可共享的数据集合

1.2.数据仓库的基本特征

  • 数据仓库的数据是面向主题的
  • 数据仓库的数据是集成的
  • 数据仓库的数据是不可更新的
  • 数据仓库的数据是随时间不断变化的

1.3.数据仓库反映历史变化的属性主要表现在:

  • 数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限
  • 传统操作型数据系统中的数据含有“当前值”的数据,这些数据在访问时是有效的,当然数据的当前值也能被更新,但数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照
  • 传统操作型数据系统中可能包含也可能不包含时间元素,如年、月、日、时、分、秒等,而数据仓库中一定会包含时间元素

1.4.数据仓库系统的体系结构

  • 数据仓库的后台工具:包括数据抽取、清洗、转换、装载和维护工具
  • 数据仓库服务器:相当于数据库系统中的DBMS,负责管理数据仓库中数据的存储管理和数据存取,并给OLAP服务器和前台工具提供存取接口(如SQL查询接口)
  • OLAP服务器:透明地为前台工具和用户提供多维数据视图;OLAP服务器则必须考虑物理上这些分析数据的存储问题
  • 前台工具:包括查询报表工具、多维分析工具、数据挖掘工具和分析结果可视化工具等

二、数据挖掘

2.1.基本概念

  • 概念:数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但可能有用的信息和知识的一种新技术
  • 目的:帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素
  • 数据挖掘技术设计数据库技术、人工智能技术、机器学习、统计分析等多种技术

2.2.数据挖掘和传统分析方法的区别

  • 本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识
  • 数据挖掘所得到的信息应具有事先未知、有效和可实用3个特征

2.3.数据挖掘的数据源

  • 从数据仓库中来

    • 优点:许多数据不一致的问题都较好的解决了,载数据挖掘时大大减少了清洗数据的工作量
    • 缺点:建立数据仓库是一项巨大的工程,耗时耗力
  • 从数据库中来

    • 如果只是为了数据挖掘,可以把一个或几个OLTP数据库导入一个只读的数据库中,然后在上面进行数据挖掘

2.4.数据挖掘的功能

  • 趋势和演变分析
  • 关联分析
  • 聚类
  • 概念描述
  • 偏差检测

2.5.数据挖掘的流程

  • 问题定义

    • 在开始数据挖掘之前最先的也是最重要的要求就是熟悉背景知识,弄清用户的需求
  • 建立数据挖掘库

    • 要进行数据挖掘必须收集要挖掘的数据资源。一般建议把要挖掘的数据都收集到一个数据库中
  • 分析数据

    • 分析数据就是通常所进行的对数据深入调查的过程。从数据集中找出规律和趋势,发现因素之间的相关性
  • 调整数据

    • 通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对问题解决的要求能进一步明确化、进一步量化
  • 模型化

    • 在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型
  • 评价和解释

三、分布式数据库

3.1.基本概念

  • 分布式数据库由一组数据组成,这些数据物理上分布在计算机网络的不同结点(场地)上,逻辑上是属于同一个系统。每个结点可以执行局部应用,也能通过网络通信子系统执行全局应用

3.2.分布式数据库系统的特点

  • 数据独立性
  • 集中与自治相结合的控制结构
  • 适当增加数据冗余度
  • 全局的一致性、可串行性和可恢复性

3.3.分布式数据存储

  • 分布式数据存储可以从数据分配和数据分片两个角度考察

  • 数据分配是指数据在计算机网络各场地上的分配策略

    • 集中式
    • 分割式
    • 全复制式
    • 混合式
  • 数据分片是指数据存放单位不是全部关系,而是关系的一部分,包括以下几种方式:

    • 水平分片:按一定的条件把全局关系的所有元组划分成若干不相交的子集,每个子集为关系的一个片段
    • 垂直分片:把一个全局关系的属性集分成若干子集,并在这些子集上做投影运算,每个投影为垂直分片
    • 混合型分片:将水平分片与垂直分片方式综合使用则为混合型分片

3.4.分布式DBMS组成

  • LDBMS(局部DBMS)

    • 建立和管理局部数据库,提供场地自治能力、执行局部应用及全局查询的子查询
  • GDBMS(全局DBMS)

    • 提供分布透明性,协调全局事务的执行,协调各LDBMS以完成全局应用,保证数据库的全局一致性,执行并发控制,实现更新同步,提供全局恢复功能
  • 全局数据字典

    • 存放全局概念模式、分片模式、分布模式的定义,以及各模式之间映像的定义;存放有关用户存取权限的定义,以保证全局用户的合法权限和数据库的安全性;存放数据完整性约束条件的定义,其功能与集中式数据库的数据字典类似
  • 通信管理

    • 在分布式数据库各场地之间传递消息和数据,完成通信功能