【数据挖掘】打破无效复习🌰：x=[1,2,0,2,0],y=[2,2,2,0,2],两者之间的夹角余弦相似度为：0.�

在这里插入图片描述

写在最前

🎈期末复习周到了，根据老师给的重点简单写写，有如错误，欢迎大家指正~

一、填空题

欧几里得距离（欧氏距离）

🌰：测试样本，属性为：[1,0,2]，训练样本，属性为：[2,0,2]，测试样本到训练样本的欧氏距离为：1

解：

维度	公式
二维	ρ = ( x 2 − x 1 ) 2 + ( y 2 − y 1 ) 2 ρ=\sqrt{(x2−x1)^2+(y2−y1)^2} ρ=(x2−x1)2+(y2−y1)2
N维	d ( x ， y ) = ∑ i = 1 n ( x i − y i ) 2 d(x，y)=\sqrt{ \sum_{i=1}^n(x_i-y_i)^2} d(x，y)=i=1∑n(xi−yi)2

说的简单一点就是我们高中所说的两点间距离公式

余弦相似度

🌰：x=[1,2,0,2,0],y=[2,2,2,0,2],两者之间的夹角余弦相似度为：0.5

解：
在这里插入图片描述

简单匹配系数

🌰：x=[0,1,1,0,0],y=[1,1,0,0,1],两者之间的简单匹配系数为 0.4

在这里插入图片描述

Jaccard系数

🌰：x=[0,1,1,0,0],y=[1,1,0,0,1],两者之间的Jaccard相似性系数为：0.25

解：
在这里插入图片描述

数据集的Classification Error

🌰：已知一个数据集，其中有3个类的样本，这3个类的样本数量分别为1、1、3，则该数据集的Classification Error为 0.4

解：
在这里插入图片描述

数据集的GINI（基尼系数）

🌰：已知一个数据集，其中有2个类的样本，这2个类的样本数量分别为1、3，则该数据集的GINI为 0.375

解：
在这里插入图片描述

召回率

🌰：TP=90，FN=20，TN=120，FP=10，则计算其召回率为 9/11
在这里插入图片描述

精度

🌰：TP=90，FN=20，TN=120，FP=10，则计算其精度为 9/10
在这里插入图片描述

二、问答题

支持向量机的“最大边缘”原理

即追求分类器的泛化能力最大化。即希望所找到的决策边界，在满足将两类数据点正确的分开的前提下，对应的分类器边缘最大。这样可以使得新的测试数据被错分的几率尽可能小。

软边缘支持向量机的基本工作原理

对存在数据污染、近似线性分类的情况，可能并不存在一个最优的线性决策超平面；当存在噪声数据时，为保证所有训练数据的准确分类，可能会导致过拟合。因此，需要允许有一定程度“错分”，又有较大分界区域的最优决策超平面，即软间隔支持向量机。
软间隔支持向量机通过引入松弛变量、惩罚因子，在一定程度上允许错误分类样本，以增大间隔距离。在分类准确性与泛化能力上寻求一个平衡点。

非线性支持向量机的基本工作原理

对非线性可分的问题，可以利用核变换，把原样本映射到某个高维特征空间，使得原本在低维特征空间中非线性可分的样本，在新的高维特征空间中变得线性可分，并使用线性支持向量机进行分类。

三、计算题

朴素贝叶斯分类

📝：
朴素贝叶斯分类

（1）已知训练数据集如上图：该数据集中，P(yes)= 0.6 ， P(no)= 0.4

（2）已知待分类的测试样本X=（Attribute1= V1c, Attribute2= V2c）

计算以下条件概率：（答案请表示为分数b/a；b/a约分为最简形式）

P(Attribute1= V1c |yes) = 1/2

P(Attribute1= V1c |no) = 1/4

P(Attribute2= V2c |yes) = 1/2

P(Attribute2= V2c |no) = 1/4

P(Attribute1= V1c, Attribute2= V2c |yes) = 1/4

P(Attribute1= V1c, Attribute2= V2c |no) = 1/16

（3）已知待分类的测试样本X=（Attribute1= V1c, Attribute2= V2c）。后验概率P(no|X)、P(yes|X) 各自是多少？（答案请表示为分数b/a；b/a约分为最简形式）

P(yes|Attribute1=V1c,Attribute2=V2c)=3/20

P(Attribute1= V1c, Attribute2= V2c |yes) *P(yes)

P(no |Attribute1=V1c,Attribute2=V2c)=1/40

P(Attribute1= V1c, Attribute2= V2c |no) *P(no)

（4）已知训练数据集如表1。已知待分类的测试样本X=（Attribute1= V1c, Attribute2= V2c）。该测试样本被分成哪一类？Yes

ID3决策树，计算数据集的熵、期望和信息增益

📝：
ID3决策树
（1）该数据集中：

P(yes)=0.6，P(no)= 0.4

该数据集的熵为 Info(D) = – ( 3 / 5 ) l o g 2 ( 3 / 5 ) – ( 2 / 5 ) l o g 2 ( 2 / 5 ) –(3/5)log_2(3/5)–(2/5)log_2(2/5) –(3/5)log2(3/5)–(2/5)log2(2/5)

（说明：熵可以写成-(b/a)*log2(b/a) -( d/c)*log2(d/c)的形式其中，分数b/a、d/c约分为最简形式）

（2）若以Attribute1为分裂属性，将数据集分成三个子集D1、D2、D3，分别对应Attribute1=V1a，Attribute1=V1b，Attribute1=V1c。三个子集的样本数量与原始数据集的比例分别为：0.4、0.2、0.4

（3）若以Attribute1为分裂属性，将数据集分成三个子集D1、D2、D3，分别对应Attribute1=V1a，Attribute1=V1b，Attribute1=V1c。三个子集的熵分别为：

– ( 1 / 4 ) l o g 2 ( 1 / 4 ) – ( 3 / 4 ) l o g 2 ( 3 / 4 ) – (1/4)log_2(1/4)–(3/4)log_2(3/4) –(1/4)log2(1/4)–(3/4)log2(3/4)
– 1 l o g 2 ( 1 ) – 1log_2(1) –1log2(1)
– ( 1 / 4 ) l o g 2 ( 1 / 4 ) – ( 3 / 4 ) l o g 2 ( 3 / 4 ) – (1/4)log_2(1/4)–(3/4)log_2(3/4) –(1/4)log2(1/4)–(3/4)log2(3/4)

（4）若以Attribute1为分裂属性，将数据集分成三个子集D1、D2、D3，分别对应Attribute1=V1a，Attribute1=V1b，Attribute1=V1c。该划分的期望信息为：
( 2 / 5 ) ∗ I ( 1 , 3 ) + ( 1 / 5 ) ∗ I ( 2 , 0 ) + ( 2 / 5 ) ∗ I ( 3 , 1 ) (2/5)*I(1,3)+(1/5)*I(2,0)+(2/5)*I(3,1) (2/5)∗I(1,3)+(1/5)∗I(2,0)+(2/5)∗I(3,1)
（5）若以Attribute1为分裂属性，将数据集分成三个子集D1、D2、D3，分别对应Attribute1=V1a，Attribute1=V1b，Attribute1=V1c。该划分的信息增益为：
I ( 6 , 4 ) − ( 1 / 5 ) ∗ I ( 2 , 0 ) − ( 4 / 5 ) ∗ I ( 1 , 3 ) I(6,4)-(1/5)*I(2,0)-(4/5)*I(1,3) I(6,4)−(1/5)∗I(2,0)−(4/5)∗I(1,3)
3. 欧氏距离&KNN分类

📝：已知有5个训练样本，分别为：
样本1，属性为：[2,0,2] 类别 0
样本2，属性为：[1,5,2] 类别 1
样本3，属性为：[3,2,3] 类别 1
样本4，属性为：[3,0,2] 类别 0
样本5，属性为：[1,0,6] 类别 0

有1个测试样本，属性为：[1,0,2]

（1）测试样本到5个训练样本（样本1、2、3、4、5）的欧氏距离依次为：1、5、3、2、4

（2）K=3，距离测试样本最近的k个训练样本依次为：样本1、样本4、样本3

（3）距离最近的k个训练样本类别依次为：类别0、类别0、类别1

（4）KNN算法得到的测试样本的类别为： 类别0

求给定数据集的频繁K项集、指定关联规则的支持度及置信度

📝：
在这里插入图片描述

支持度：单个项占总项集的百分比，比如薯片的支持度=4/5，可乐的支持度=3/5
置信度：薯片=>羽毛球的置信度=3/4，可乐=>羽毛球的置信度 =3/3

在这里插入图片描述

写在最后

所念皆星河。fighting！(公众号：La森格)

【数据挖掘】打破无效复习

目录

写在最前

一、填空题

二、问答题

三、计算题

写在最后