【数据挖掘】打破无效复习

158 阅读6分钟

在这里插入图片描述

目录


写在最前

🎈期末复习周到了,根据老师给的重点简单写写,有如错误,欢迎大家指正~

一、填空题

  1. 欧几里得距离(欧氏距离)

🌰:测试样本,属性为:[1,0,2],训练样本,属性为:[2,0,2],测试样本到训练样本的欧氏距离为:1

解:

维度公式
二维ρ = ( x 2 ​ − x 1 ​ ) 2 + ( y 2 ​ − y 1 ​ ) 2 ρ=\sqrt{(x2​−x1​)^2+(y2​−y1​)^2} ρ=(x2​−x1​)2+(y2​−y1​)2 ​
N维d ( x , y ) = ∑ i = 1 n ( x i − y i ) 2 d(x,y)=\sqrt{ \sum_{i=1}^n(x_i-y_i)^2} d(x,y)=i=1∑n​(xi​−yi​)2 ​

说的简单一点就是我们高中所说的两点间距离公式

  1. 余弦相似度

🌰:x=[1,2,0,2,0],y=[2,2,2,0,2],两者之间的夹角余弦相似度为:0.5

解:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  1. 简单匹配系数

🌰:x=[0,1,1,0,0],y=[1,1,0,0,1],两者之间的简单匹配系数0.4

在这里插入图片描述

  1. Jaccard系数

🌰:x=[0,1,1,0,0],y=[1,1,0,0,1],两者之间的Jaccard相似性系数为:0.25

解:
在这里插入图片描述

  1. 数据集的Classification Error

🌰:已知一个数据集,其中有3个类的样本,这3个类的样本数量分别为1、1、3,则该数据集的Classification Error0.4

解:
在这里插入图片描述

  1. 数据集的GINI(基尼系数)

🌰:已知一个数据集,其中有2个类的样本,这2个类的样本数量分别为1、3,则该数据集的GINI0.375

解:
在这里插入图片描述

  1. 召回率

🌰:TP=90,FN=20,TN=120,FP=10,则计算其召回率9/11
在这里插入图片描述

  1. 精度

🌰:TP=90,FN=20,TN=120,FP=10,则计算其精度9/10
在这里插入图片描述


二、问答题

  1. 支持向量机的“最大边缘”原理

即追求分类器的泛化能力最大化。即希望所找到的决策边界,在满足将两类数据点正确的分开的前提下,对应的分类器边缘最大。这样可以使得新的测试数据被错分的几率尽可能小。

  1. 软边缘支持向量机的基本工作原理

对存在数据污染、近似线性分类的情况,可能并不存在一个最优的线性决策超平面;当存在噪声数据时,为保证所有训练数据的准确分类,可能会导致过拟合。因此,需要允许有一定程度“错分”,又有较大分界区域的最优决策超平面,即软间隔支持向量机。
软间隔支持向量机通过引入松弛变量、惩罚因子,在一定程度上允许错误分类样本,以增大间隔距离。在分类准确性与泛化能力上寻求一个平衡点。

  1. 非线性支持向量机的基本工作原理

对非线性可分的问题,可以利用核变换,把原样本映射到某个高维特征空间,使得原本在低维特征空间中非线性可分的样本,在新的高维特征空间中变得线性可分,并使用线性支持向量机进行分类。


三、计算题

  1. 朴素贝叶斯分类

📝:
朴素贝叶斯分类

(1)已知训练数据集如上图:该数据集中,P(yes)= 0.6 , P(no)= 0.4

(2)已知待分类的测试样本X=(Attribute1= V1c, Attribute2= V2c)

计算以下条件概率:(答案请表示为分数b/a;b/a约分为最简形式)

P(Attribute1= V1c |yes) = 1/2

P(Attribute1= V1c |no) = 1/4

P(Attribute2= V2c |yes) = 1/2

P(Attribute2= V2c |no) = 1/4

P(Attribute1= V1c, Attribute2= V2c |yes) = 1/4

P(Attribute1= V1c, Attribute2= V2c |no) = 1/16

(3)已知待分类的测试样本X=(Attribute1= V1c, Attribute2= V2c)。后验概率P(no|X)、P(yes|X) 各自是多少?(答案请表示为分数b/a;b/a约分为最简形式)

P(yes|Attribute1=V1c,Attribute2=V2c)=3/20

P(Attribute1= V1c, Attribute2= V2c |yes) *P(yes)

P(no |Attribute1=V1c,Attribute2=V2c)=1/40

P(Attribute1= V1c, Attribute2= V2c |no) *P(no)

(4)已知训练数据集如表1。已知待分类的测试样本X=(Attribute1= V1c, Attribute2= V2c)。 该测试样本被分成哪一类?Yes


  1. ID3决策树,计算数据集的熵、期望和信息增益

📝:
ID3决策树
(1)该数据集中:

P(yes)=0.6,P(no)= 0.4

该数据集的熵为 Info(D) = – ( 3 / 5 ) l o g 2 ( 3 / 5 ) – ( 2 / 5 ) l o g 2 ( 2 / 5 ) –(3/5)log_2(3/5)–(2/5)log_2(2/5) –(3/5)log2​(3/5)–(2/5)log2​(2/5)

(说明:熵可以写成-(b/a)*log2(b/a) -( d/c)*log2(d/c)的形式 其中,分数b/a、d/c约分为最简形式)

(2)若以Attribute1为分裂属性,将数据集分成三个子集D1、D2、D3,分别对应Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。三个子集的样本数量与原始数据集的比例分别为:0.40.20.4

(3)若以Attribute1为分裂属性,将数据集分成三个子集D1、D2、D3,分别对应Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。三个子集的熵分别为:

– ( 1 / 4 ) l o g 2 ( 1 / 4 ) – ( 3 / 4 ) l o g 2 ( 3 / 4 ) – (1/4)log_2(1/4)–(3/4)log_2(3/4) –(1/4)log2​(1/4)–(3/4)log2​(3/4)
– 1 l o g 2 ( 1 ) – 1log_2(1) –1log2​(1)
– ( 1 / 4 ) l o g 2 ( 1 / 4 ) – ( 3 / 4 ) l o g 2 ( 3 / 4 ) – (1/4)log_2(1/4)–(3/4)log_2(3/4) –(1/4)log2​(1/4)–(3/4)log2​(3/4)

(4)若以Attribute1为分裂属性,将数据集分成三个子集D1、D2、D3,分别对应Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。该划分的期望信息为:
( 2 / 5 ) ∗ I ( 1 , 3 ) + ( 1 / 5 ) ∗ I ( 2 , 0 ) + ( 2 / 5 ) ∗ I ( 3 , 1 ) (2/5)*I(1,3)+(1/5)*I(2,0)+(2/5)*I(3,1) (2/5)∗I(1,3)+(1/5)∗I(2,0)+(2/5)∗I(3,1)
(5)若以Attribute1为分裂属性,将数据集分成三个子集D1、D2、D3,分别对应Attribute1=V1a,Attribute1=V1b,Attribute1=V1c。该划分的信息增益为:
I ( 6 , 4 ) − ( 1 / 5 ) ∗ I ( 2 , 0 ) − ( 4 / 5 ) ∗ I ( 1 , 3 ) I(6,4)-(1/5)*I(2,0)-(4/5)*I(1,3) I(6,4)−(1/5)∗I(2,0)−(4/5)∗I(1,3)
3. 欧氏距离&KNN分类

📝:已知有5个训练样本,分别为:
样本1,属性为:[2,0,2] 类别 0
样本2,属性为:[1,5,2] 类别 1
样本3,属性为:[3,2,3] 类别 1
样本4,属性为:[3,0,2] 类别 0
样本5,属性为:[1,0,6] 类别 0

有1个测试样本,属性为:[1,0,2]

(1)测试样本到5个训练样本(样本1、2、3、4、5)的欧氏距离依次为:1、5、3、2、4

(2)K=3,距离测试样本最近的k个训练样本依次为:样本1、样本4、样本3

(3)距离最近的k个训练样本类别依次为:类别0、类别0、类别1

(4)KNN算法得到的测试样本的类别为: 类别0

  1. 求给定数据集的频繁K项集、指定关联规则的支持度及置信度

📝:
在这里插入图片描述

支持度:单个项占总项集的百分比,比如薯片的支持度=4/5,可乐的支持度=3/5
置信度:薯片=>羽毛球的置信度=3/4,可乐=>羽毛球的置 信度 =3/3

在这里插入图片描述


写在最后

所念皆星河。fighting!(公众号:La森格)
在这里插入图片描述