基础知识
- 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合
- 数据挖掘是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程
- 数据处理分为联机事务处理(OLTP) 、联机分析处理(OLAP)
- 数据仓库的三层数据结构
- 数据仓库的ETL过程
- 关联规则挖掘分为产生频繁集和产生规则两个步骤
- 层次聚类方法分为凝聚型层次聚类和分解型层次聚类
- 遗传算法的设计5大要素:编码方式、种群规模的设定、适应度函数的设计遗传算子的设计和终止条件的设定
后续更新===>
Apriori算法
如何选取:以支持度为准,所占比例大于支持度的项入选
过程:apriori算法更像一个遍历算法,从第一频繁项集开始,列举各项的频繁次数,剔除小于支持度的项(如C1 -> L1),后续的二项频繁项集也是如此
何时结束:当n项集的项小于2时或下一项集的项为空停止。
FP- growth算法
决策树算法ID3
近邻分类方法
最近邻分类方法
计算未知点到每个点的欧式距离
得到距离最近的一个点 A
将这个未知点的类标识改为与点 A 相同的类标识
k-近邻分类方法
计算未知点到每个点的欧式距离
按照 k 值选取 k 个距离最近的点
如果 i 个点的类标识一致(为1), 剩下的 j 个类标识一致(为-1)
若 i > j,则将未知点的类标识记为 -1