本文已参与「新人创作礼」活动,一起开启掘金创作之路。
一. 单选题
1.下面属于维归约常用的线性代数技术的有( )
A. 主成分分析
B. 特征提取
C. 特征加权
D. 离散化
正确答案: A
2.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内( )
A. 第一个
B. 第二个
C. 第三个
D. 第四个
正确答案: B
3.数据规范化方法包括( )
A. 数据归约
B. 数据泛化
C. 数据集成
D. 最小最大规范化
正确答案: D
4.已知某工厂车间工人的年终奖,其均值为34 349元,标准差为16 928元,对于观测值为57 000元,使用z-score方法对其进行规范化为( )
A. 1.34
B. 1.43
C. 0.35
D. 0.57
正确答案: A
二. 多选题
1.下列数据变换类型及方法正确的是( )
A. 数据平滑:去噪,将连续数据离散化,增加粒度
B. 数据聚集:对数值属性进行监督或无监督离散化
C. 特征构造:构造出新的属性
D. 数据规范化:使数据按照比例缩放,落入特定区域
正确答案: ACD
2.数据归约技术包括( )
A. 维归约
B. 数量归约
C. 数据压缩
D. 数据清理
正确答案: ABC
3.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各方法正确的有( )
A. 忽略元组
B. 从数据中挑选一个数据填写
C. 使用属性的平均值填充空缺值
D. 用与给定元组属同一类的所有样本的平均值
正确答案: ACD
三. 填空题
1.数据预处理的技术手段包括____、、、____。
正确答案:
(1) 数据清理
(2) 数据集成
(3) 数据变换
(4) 数据归约
2.在现实世界的数据中,元组在某些属性上的缺失值是常有的。处理该问题的常用方法有____、、。
正确答案:
(1) 删除数据对象或属性
(2) 估计遗漏值
(3) 忽略遗漏值
3.数据归约技术包括____、、。
正确答案:
(1) 维归约
(2) 数量归约
(3) 数据压缩
4.在使用分箱法实现特征离散化时,可以用每个箱中的____或____替换箱中所有的值。
正确答案:
(1) 中位数
(2) 平均值
5.数据清理一般需要对 ____ 和____ 进行处理。
正确答案:
(1) 缺失值
(2) 噪声数据
6.数据平滑的方法包括 ____ 、____ 和 ____ 。
正确答案:
(1) 分箱
(2) 回归
(3) 聚类
四. 判断题
1.噪声是指被测量的变量产生的错误或误差。( )
正确答案: 错
2.数据变换是通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。( )
正确答案: 对
3.唯一性原则是指一个属性的每个值都是唯一的,不能和这个属性的其他值相同。( )
正确答案: 对
4.每个属性的最大值和最小值之间没有缺失值既满足连续性原则。( )
正确答案: 错
5.数据规约就是指对数据集进行简化表示。( )
正确答案: 对
6.在确定数据中的离群点时,一般不必检查整个数据集( )
正确答案: 对
五. 简答题
1.熟悉和掌握卡方分布、卡方检验的原理和步骤。利用卡方检验确定:喝牛奶对感冒发病率有没有影响
正确答案:
2.试着探索一下:卡方检验临界值表中,显著水平a为0.05,自由度为1时,临界值3.84是怎么计算出来的。
我的答案:
《概率论与数理统计》第六版P172
5.3章:数理统计中的某些常用分布
X²分布:
当k=10,α=0.05时临界值为3.84