【Data Mining】【第三章作业】

1,132 阅读4分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

一. 单选题

1.下面属于维归约常用的线性代数技术的有( )

A. 主成分分析

B. 特征提取

C. 特征加权

D. 离散化

正确答案: A

2.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内( )

A. 第一个

B. 第二个

C. 第三个

D. 第四个

正确答案: B

3.数据规范化方法包括( )

A. 数据归约

B. 数据泛化

C. 数据集成

D. 最小最大规范化

正确答案: D

4.已知某工厂车间工人的年终奖,其均值为34 349元,标准差为16 928元,对于观测值为57 000元,使用z-score方法对其进行规范化为( )

A. 1.34

B. 1.43

C. 0.35

D. 0.57

正确答案: A

二. 多选题

1.下列数据变换类型及方法正确的是( )

A. 数据平滑:去噪,将连续数据离散化,增加粒度

B. 数据聚集:对数值属性进行监督或无监督离散化

C. 特征构造:构造出新的属性

D. 数据规范化:使数据按照比例缩放,落入特定区域

正确答案: ACD

2.数据归约技术包括( )

A. 维归约

B. 数量归约

C. 数据压缩

D. 数据清理

正确答案: ABC

3.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各方法正确的有( )

A. 忽略元组

B. 从数据中挑选一个数据填写

C. 使用属性的平均值填充空缺值

D. 用与给定元组属同一类的所有样本的平均值

正确答案: ACD

三. 填空题

1.数据预处理的技术手段包括____、、____。

正确答案:

(1) 数据清理

(2) 数据集成

(3) 数据变换

(4) 数据归约

2.在现实世界的数据中,元组在某些属性上的缺失值是常有的。处理该问题的常用方法有____、

正确答案:

(1) 删除数据对象或属性

(2) 估计遗漏值

(3) 忽略遗漏值

3.数据归约技术包括____、

正确答案:

(1) 维归约

(2) 数量归约

(3) 数据压缩

4.在使用分箱法实现特征离散化时,可以用每个箱中的____或____替换箱中所有的值。

正确答案:

(1) 中位数

(2) 平均值

5.数据清理一般需要对 ____ 和____ 进行处理。

正确答案:

(1) 缺失值

(2) 噪声数据

6.数据平滑的方法包括 ____ 、____ 和 ____ 。

正确答案:

(1) 分箱

(2) 回归

(3) 聚类

四. 判断题

1.噪声是指被测量的变量产生的错误或误差。( )

正确答案: 错

2.数据变换是通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。( )

正确答案: 对

3.唯一性原则是指一个属性的每个值都是唯一的,不能和这个属性的其他值相同。( )

正确答案: 对

4.每个属性的最大值和最小值之间没有缺失值既满足连续性原则。( )

正确答案: 错

5.数据规约就是指对数据集进行简化表示。( )

正确答案: 对

6.在确定数据中的离群点时,一般不必检查整个数据集( )

正确答案: 对

五. 简答题

1.熟悉和掌握卡方分布、卡方检验的原理和步骤。利用卡方检验确定:喝牛奶对感冒发病率有没有影响

在这里插入图片描述

正确答案:

在这里插入图片描述

在这里插入图片描述

2.试着探索一下:卡方检验临界值表中,显著水平a为0.05,自由度为1时,临界值3.84是怎么计算出来的。

在这里插入图片描述

我的答案:

《概率论与数理统计》第六版P172

5.3章:数理统计中的某些常用分布

X²分布:

当k=10,α=0.05时临界值为3.84

在这里插入图片描述