【Data Mining】【第六章作业】

1,530 阅读7分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

一. 单选题

1.下列几种数据挖掘功能中被广泛的用于购物篮分析的是( )

A. 关联分析;

B. 分类和预测;

C. 聚类分析;

D. 演变分析

正确答案: A

2.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题( )

A. 关联规则发现;

B. 聚类;

C. 分类;

D. 自然语言处理;

正确答案: A

3.设X={1,2,3}是频繁项集,则可由X产生多少个关联规则( )

A. 4;

B. 5;

C. 6;

D. 7

正确答案: C

4.置信度(confidence)是衡量哪种兴趣度度量的指标( )

A. 简洁性;

B. 确定性;

C. 实用性;

D. 新颖性;

正确答案: B

5.关联规则的支持度公式为( )

A. support(A=>B)=P(A∩B);

B. support(A=>B)=P(B|A);

C. support(A=>B)=P(A∪B);

D. support(A=>B)=P(A|B);

正确答案: C

6.下列指标中,能够度量一个规则的强度,同时衡量两个集合之间的独立性的是( )

A. 提升度;

B. 杠杆度;

C. IS度量;

D. 确信度;

正确答案: D

7.规则∅→A和A→∅的置信度是( )

A. 50%;

B. 75%;

C. 90%;

D. 100%;

正确答案: D

8.令C1 ,C2和C3分别是规则{p}→{q},{p}→{q,r},{p,r}→{q}的置信度。如果假定C1, C2和C3有不同的值,置信度最低的规则是( )

A. C1;

B. C2;

C. C3;

D. C2和C3;

正确答案: B

9.购买HDTV和购买健身器的情况如下表所示,设最小支持度阈值为0.3,最小置信度阈值为0.6,则{买HDTV }→{买健身器}的支持度为( )

在这里插入图片描述

A. 0.45;

B. 0.55;

C. 0.33;

D. 0.27;

正确答案: C

10.上一题所给的数据中,{买HDTV }→{买健身器}的置信度为( )

A. 0.65;

B. 0.55;

C. 0.49;

D. 0.33;

正确答案: B

11.如果X∈Y,且Y中至少有一项不在X中,那么Y是X的( )

A. 频繁项集;

B. 真超项集;

C. 闭频繁项集;

D. 极大频繁项集;

正确答案: B

12.下列关于Apriori算法的分析中,错误的是( )

A. Apriori算法基于支持度的剪枝技术,用来控制候选项集的指数增长;

B. Apriori算法包括候选集生成和向下封闭检测两个阶段;

C. Apriori算法会扫描数据库2次;

D. Apriori算法使用逐层搜索的迭代方法;

正确答案: C

13.下表所示的购物篮事务数据集中能够提取的3-项集的最大数量是( )

在这里插入图片描述

A. 3;

B. 6;

C. 10;

D. 20;

正确答案: D

14.下列不属于Apriori算法的缺点的是( )

A. Apriori算法分为两个阶段挖掘频繁项集;

B. Apriori算法产生候选项目集时没有排除无用的候选项集;

C. Apriori算法在每一步产生候选项目集时循环产生的组合过多;

D. 在扫描大型数据库时,Apriori算法会大大增加计算机系统I/O开销;

正确答案: A

二. 多选题

1.考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5},{1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。选出根据Apriori 算法利用上述频繁3-项集生成的候选4-项集( )

A. {1,2,3,4};

B. {1,2,3,5};

C. {1,2,4,5};

D. {2,3,4,5};

正确答案: ABCD

2.下表是一个购物篮,假定支持度阈值为40%,其中哪几个是频繁闭项集( )

在这里插入图片描述

A. abc;

B. ad;

C. cd;

D. de;

正确答案: AD

3.以下关于非频繁模式说法,正确的是( )

A. 其支持度小于阈值;

B. 都是不让人感兴趣的;

C. 其支持度大于阈值;

D. 对异常数据项敏感;

正确答案: AD

4.下列关于FP-growth算法优缺点的表述中,正确的有( )

A. 相比于Apriori算法,FP-growth算法运行速度要快一个数量级;

B. FP-growth算法在建立FP-tree时占用空间较小;

C. FP-growth算法无须多次扫描数据库,节省了运行时间;

D. FP-growth算法处理产生的条件树时会占用很多资源;

正确答案: ACD

5.一个数据库有5 个事务,如下表所示。设min_sup=60%,min_conf = 80%。从下列选项中选出频繁2-项集()

在这里插入图片描述

A. {M,K};

B. {O,K};

C. {K,E};

D. {M,O};

正确答案: ABC

三. 填空题

1.Aprior算法包括____和 ____两个基本步骤。

正确答案: (1) 连接 (2) 剪枝

2.关联规则的经典算法包括____和____,其中____的效率更高。

正确答案: (1) Apriori (2) FP-growth (3) FP-growth

3.如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则连接产生的C3=____

正确答案: (1) {{a,b,c},{a,b,d},{a,c,d},{b,c,d}}

4.关联规则的置信度公式为confidence(A=>B)=____

正确答案: (1) P(B|A)

5.同时满足____和____的规则称之为强关联规则。

正确答案: (1) 最小支持度阈值 (2) 最小置信度阈值

6.如果一个项集的直接超集都不具有和它相同的支持度计数,则称其为:____

正确答案: (1) 闭项集

7.在挖掘闭模式算法中,直接搜索闭频繁项集,并对结果进行剪枝是最常用的方法,其中剪枝的策略包括____和____ 。

正确答案: (1) 项合并 (2) 子项集剪枝

8.不包含任何考察项集的事务称为:____

正确答案: (1) 零事务

9.频繁出现在数据集中的模式称为:____

正确答案: (1) 频繁模式

10.关联规则挖掘任务主要分为____和____两个子任务。

正确答案: (1) 频繁项集的产生 (2) 关联规则的产生

11.大型数据库中的关联规则挖掘包含 找出所有____和由____产生____两个过程。

正确答案: (1) 频繁项集 (2) 频繁项集 (3) 强关联规则

12.FP-growth算法的基本思想是用FP-growth ____ 形成频繁集。

正确答案: (1) 递归增长

13.某个食品连锁店每周的事务记录如下表所示,每个事务表示在一项收款机业务中卖出的商品项集,假定min____conf=40%,使用Apriori算法生成的强关联规则有 ____和____两项。(横线填写格式:{xxx}->{xxx})

在这里插入图片描述

正确答案: (1) {面包}->{花生酱} (2) {花生酱}->{面包}

14.事物t={牛奶,面包,啤酒}是____项集。

正确答案: (1) 3

15.FP-growth算法在一次运行中扫描____次数据库。 计算关联规则{牛奶}=>{咖啡}的支持度和置信度:____(答案保留小数点后两位)

在这里插入图片描述

正确答案: (1) 2 (2) 0.40, 0.66

16.从上题的数据中计算牛奶与咖啡之间的提升度和杠杆度:____(答案保留小数点后一位)

正确答案: (1) 1.3, 0.1

17.计算{面包(A)=>啤酒(E)}的支持度:____(保留小数点后一位)

在这里插入图片描述

正确答案: (1) 0.20

18.从上题的数据中计算规则{面包(A)}=>{甜酱(B)}的置信度:____(答案保留小数点后两位)

正确答案: (1) 0.25

四. 判断题

1.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

正确答案: 错

2.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

正确答案: 对

3.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。

正确答案: 错

4.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有非空子集也是频繁的。

正确答案: 对

5.具有较高的支持度的项集具有较高的置信度。

正确答案: 错

6.如果两个项集的提升度的值小于1,则说明两个项集正相关。

正确答案: 错

7.两个项集的全置信度越大,说明两个项集的关系越紧密,反之则关系越疏远。

正确答案: 对

8.两个项集的全置信度越大,说明两个项集的关系越紧密,反之则关系越疏远。

正确答案: 对

9.可信度是对关联规则的准确度的衡量。

正确答案: 对

10.可信度是对关联规则的准确度的衡量。

正确答案: 对

11.关联规则是形如X=>Y的蕴含式,X和Y满足:X和Y是I的真子集,并且X和Y的交集为空集。

正确答案: 对

12.设最小支持度阈值为30%,最小置信度阈值为70%,如果一个项集的支持度为50%,则该项集是频繁项集。

正确答案: 对