数据仓库与数据挖掘

264 阅读2分钟

课后习题答案


基础知识

  1. 数据仓库是一个面向主题的集成的相对稳定的反映历史变化的数据集合
  2. 数据挖掘是从大量数据中获取有效的新颖的潜在有用的最终可理解的模式的过程
  3. 数据处理分为联机事务处理(OLTP)联机分析处理(OLAP)
  4. 数据仓库的三层数据结构
  5. 数据仓库的ETL过程
  6. 关联规则挖掘分为产生频繁集产生规则两个步骤
  7. 层次聚类方法分为凝聚型层次聚类分解型层次聚类
  8. 遗传算法的设计5大要素:编码方式、种群规模的设定、适应度函数的设计遗传算子的设计和终止条件的设定

后续更新===>

Apriori算法

在这里插入图片描述
如何选取:以支持度为准,所占比例大于支持度的项入选
过程:apriori算法更像一个遍历算法,从第一频繁项集开始,列举各项的频繁次数,剔除小于支持度的项(如C1 -> L1),后续的二项频繁项集也是如此
何时结束:当n项集的项小于2时或下一项集的项为空停止。

FP- growth算法

决策树算法ID3

近邻分类方法

最近邻分类方法

计算未知点到每个点的欧式距离
得到距离最近的一个点 A
将这个未知点的类标识改为与点 A 相同的类标识

k-近邻分类方法

计算未知点到每个点的欧式距离
按照 k 值选取 k 个距离最近的点
如果 i 个点的类标识一致(为1), 剩下的 j 个类标识一致(为-1)
若 i > j,则将未知点的类标识记为 -1
在这里插入图片描述

k-means聚类算法

在这里插入图片描述在这里插入图片描述

层次聚类方法