从零进阶!数据分析的统计基础(第2版)课后习题

608 阅读15分钟

第五章

单选

1.对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程称为(A )。

A.假设检验B.参数估计C.双侧检验D.单侧检验

2.为研究某种减肥茶减肥效果是否显著,可以采用( C)分析方法。

A.单样本t检验B.两独立样本t检验C.两配对样本t检验D.方差分析

3.下面给出的t检验的结果,(A )表明拒绝原假设,显著性水平为0.05。

A.0.000 B.0.059 C.0.692 D.0.924

4.在假设检验中,“=”一般放在( A)。

A.原假设上B.备择假设上C.可以放在原假设上,也可以放在备择假设上D.有时放在原假设上,有时放在备择假设上

例如:单个正态总体的Z检验,可以假设H0:μ = μ0,H1:μ ≠ μ0 两个正态总体的Z检验,可以假设H0:μ1 - μ2 = 0,H1:μ1 - μ2 ≠ 0等等

5.在假设检验中,不能拒绝原假设意味着( D)。

A.原假设肯定是正确的B.原假设肯定是错误的C.没有证据证明原假设是正确的D.没有证据证明原假设是错误的

假设检验得出结论时,有时没拒绝的假设不一定是正确的,也不要把“拒绝H0,接受H1”时很小的P值误解为总体参数之间的差异很大。虽然当H0不成立时P值可能与总体参数之间的差异有关,但不是P值小差异必然大的关系所以在报告检验结论时,如果P<α,宜说“差异有统计学意义”,而不要说“差异显著”与“差异非常显著”。

6.在假设检验中,通常犯第一类错误的概率称为(B)。

A.置信水平B.显著性水平C.取伪概率D.取真概率

α又叫做显著性水平

1 - β又叫做统计效力

7.在假设检验中,拒绝域的大小与我们事先选定的(D )有一定关系。

A.统计量B.临界值C.置信水平D.显著性水平

8.在假设检验中,如果样本容量一定,则第一类错误和第二类错误(B )。

A.可以同时减小B.不能同时减小C.可以同时增大D.只能同时增大

在确定检验方法时,我们应尽可能地使犯两类错误的概率都较小但是在样本容量给定的条件下,在α与β中一个减小必导致另一个增大即在样本量一定的条件下,不可能找到一个使α与β都小的检验。因此,在样本容量一定的条件下,我们通常是控制犯第一类错误的概率α,使它不会超过某一个给定的值,一般情况下α的取值为0.01、0.05、0.1等,这样对犯第一类错误的概率加以适当地控制,以此来制约犯第二类错误的概率

9.使用者偏重于担心出现取伪错误而造成的损失,那么他宁可把显著性水平定得(A )。

A.大B.小C.大或小都可以D.先决条件不足,无法决定

10.将由显著性水平所规定的拒绝域平分为两部分,置于概率分布的两边,每边占显著性水平的二分之一,这是(B )。

A.单侧检验B.双侧检验C.右侧检验D.左侧检验

多选

1.对于假设检验和区间估计的联系与区别,下面5个说法正确的有(ABC )。

A.都是对总体某一数量特征的推断,都是运用概率估计来得到自己的结论

B.前者需要事先对总体参数做出某种假设,然后根据已知的抽样分布规律确定可以接受的临界值

C.后者无须事先对总体数量特征做出假设。它是根据已知的抽样分布规律找出恰当的区间,给出总体参数落在这一区间的概率

D.假设检验中的第二类错误就是区间估计中的第一类错误E.假设检验中实测显著性水平就是区间估计中的置信系数

2.当我们根据样本资料对零假设做出接受或拒绝的决定时,可能出现的情况有(ACDE )。

A.当零假设为真时接受它

B.当零假设为假时接受它,我们犯了第一类错误

C.当零假设为真时拒绝它,我们犯了第一类错误

D.当零假设为假时拒绝它

E.当零假设为假时接受它,我们犯了第二类错误

3.假设检验拒绝原假设,则说明(CD )。

A.原假设有逻辑上的错误

B.原假设根本不存在

C.原假设成立的可能性很小

D.备择假设成立的可能性很大

E.备择假设成立的可能性很小

4.下面给出t检验的P值结果,P值为(CD )表明接受原假设,假设显著性水平为0.05。

A.0.000

B.0.039

C.0.092

D.0.124

5.两配对样本t检验的前提(ABD)

A.样本来自的总体服从或近似服从正态分布

B.两样本观察值的先后顺序一一对应

C.两样本的数量可以不相等

D.两样本的数量相等

简答

1.假设检验和参数估计有什么相同点和不同点?

相同点:都是从样本出发推断总体

不同点:假设检验需要对总体参数做出一个假设,然后利用样本信息去检验这个假设是否成立。

区间估计是用样本统计量估计总体参数,总体参数是未知的

2.什么是假设检验中的显著性水平?统计显著是什么意思?

在假设检验中,它的含义是当原假设正确时却被拒绝的概率和风险。统计显著等价拒绝H0,指求出的值落在小概率的区间上,一般是落在0.05或比0.05更小的显著水平上。

3.什么是假设检验中的两类错误?

一类错误:弃真错误α

二类错误:取伪错误β

4.两类错误之间存在什么样的数量关系?

成负相关,再一次实验中无法同时保证犯两类错误的概率都很小,需要做出取舍

在假设检验中,α与β是此消彼长的关系。如果减小α错误,就会增大犯β错误的机会,若减小β错误,也会增大犯α错误的机会。

5.解释假设检验中的P值。

P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。(它的大小取决于3个因素,第一个是样本数据与原假设之间的差异,第二个是样本量,第三个是被假设参数的总体分布。)

6.显著性水平与P值有何区别?

显著性水平是原假设为真时,拒绝原假设的概率,是一个概率值,被称为抽样分布的拒绝域,大小由研究者事先确定,一般为0.05。而P只是原假设为真时所得到的样本观察结果或更极端结果出现的概率,被称为观察到的(或实测的)显著性水平。

7.假设检验依据的基本原理是什么?

假设检验依据的基本原理是“小概率原理”,即发生概率很小的随机事件在一次试验中是几乎不可能发生的。根据这一原理,可以做出是否拒绝原假设的决定。

计算

1.一台自动机床加工零件的直径X服从正态分布,加工要求为E(X)=5cm。现从一天的产品中抽取50个,分别测量直径后算得x拔=4.8cm,标准差为0.6cm。试在显著性水平为0.05的要求下检验这一天生产的产品直径平均值是否处在控制状态(用临界值规则)?

解:

  1. H0:没有显著差异,处在控制状态

    H1:

  2. 因为总体方差已知,用Z检验,α = 0.05 σ = 0.6 x拔 = 4.8 μ = 5

    Z = (4.8 - 5) / (0.6 / sqrt(50) = - 2.357

    查Z表,Z = - 1.96 ,落入拒绝域

2.已知初婚年龄服从正态分布。根据9个人的调查结果,其中样本均值x拔=23.5岁,样本标准差(以9-1作为分母计算 )也就是自由度为8 ,s=3岁。问是否可以认为该地区初婚年龄数学期望值已经超过20岁(α=0.05,用临界值规则)

解:

  1. H0: μ <= 20

    H1:不可以

  2. 总体方差未知,样本量小于30 ,用单样本t检验

    t = 23.5 - 20 / 3 / sqrt(9 - 1 ) = 3.5

    t0.05(8) = 1.86

    落在拒绝域 拒绝零假设

3.从某县小学六年级男学生中用简单随机抽样方式抽取400名学生,测量他们的体重,算得平均值为61.6kg,标准差为14.4kg。如果不知六年级男生体重随机变量服从何种分布,则可否用上述样本均值猜测该随机变量的数学期望值为60kg?按显著性水平0.05和0.01分别进行检验(用临界值规则)

解:

0.05

  1. 提出假设H0:μ=60,H1:μ≠60。
  2. Z = (61.6 - 60) / (14.4 / 20) = 2.222
  3. Z0.025=1.96
  4. 拒绝域为(-∞,-1.96」∪「1.96,+∞)
  5. Z=2.222>Z0.025=1.96
  6. 检验统计量的样本观测值落在拒绝域。
  7. ∴拒绝原假设H0,接受H1,认为该县六年级男生体重的数学期望不等于60kg。

0.01

  1. Z0.005=2.575
  2. Z=2.222<Z0.005=2.575
  3. 落在接受域

4.从某市已办理购房贷款的全体居民中用简单随机不放回方式抽取了342户,其中,月收入在5000元以下的有137户,户均借款额为7.4635万元,各户借款额之间的方差为24.999;月收入在5000元及以上的有205户,户借款额为8.9756万元,各户借款额之间的方差为28.541。可见,在申请贷款的居民中,收入较高者,申请数额也较大。试问,收入水平不同的居民之间申请贷款水平的这种差别是一种必然规律,还是纯属偶然(α=0.05,用P值规则和临界值规则)

解:

临界值:

两个样本 检验方差 用F 检验

H0 : 总体1方差 = 总体2方差

统计量计算式:方差之比 = 0.876,查表,在95%置信区间(0.7314319,1.354116)之内。不能拒绝零假设。

P值

5.用不放回简单随机抽样方法分别从甲、乙两地各抽取200名六年级学生进行数学测试,平均成绩分别为62分、67分,标准差分别为25分、20分,试以0.05的显著性水平检验两地六年级数学教学水平是否有显著的差异。

解:

  1. 两个样本,总体方差未知,检验均值 ,两个独立样本Z检验

  2. 提出假设,H0:1μ=μ2,H1:μ1≠μ2

  3. 带入统计量计算式: = 2.209

    Z0.025 = 1.96

    落入拒绝域

6.某厂生产的某种型号的电池,其寿命长期以来服从方差σ2=5000的正态分布。现有一批这种电池,从它的生产情况来看,寿命波动性比较大。为判断这种想法是否合乎实际,随机抽取了26只电池,测出其寿命的样本方差为S2=9200。问根据这个数据能否判定这批电池的波动性比以往的电池有显著的变化(取α=0.05)

解:

根据题意,我们就是要检测这批电池的波动性比以往是否有显著的变化

即这批产品的方差是否为5000

可以假设H0 :σ2=5000,H1:σ2≠5000

已知σ2=5000,n=26,s2=9200,α=0.05

因为总体符合正态分布,对总体方差进行检验,所以用卡方检验

带入统计量计算式: = (26 -1 )* 9200 / 5000 = 46

因为是双侧检验,所以 xα/22(n -1) = x0.0252(25) = 40.6465

x1-(α/2)2(n -1) =x0.9752(25) = 13.1197

因为 x2 > xα/22

所以落入拒绝域,拒绝原假设

第六章

一、单项选择题

1.某饮料生产企业研制了一种新型饮料,饮料有5种颜色。如果要考察颜色是否会影响销售量,则因素的水平为( D)。

A.2 B.3 C.4 D.5

2.人们在研究影响广告效果的众多因素中哪些影响因素是主要的这一问题时,可以采用(B )方法。

A.参数检验B.方差分析C.聚类分析D.因子分析

3.SST的自由度是(D )。

A.r-1B.n-rC.r-nD.n-1

4.单因素方差分析的备择假设应该是(B )。

A.μ1=μ2=μ3=…=μrB.μ1,μ2,μ3,…,μr不全相等C.μ1,μ2,μ3,…,μr全不相等D.μ1≠μ2≠μ3≠…≠μr

5.如果要拒绝原假设,则下列式子(B )必须成立。

A.F<FαB.P-value<αC.F=1D.P-value>α

6.在方差分析中,(D )反映的是样本数据与其组平均值的差异。

A.总离差B.组间误差C.抽样误差D.组内误差

7.image.png是(A )。

A.组内平方和B.组间平方和C.总离差平方和D.因素B的离差平方和

8.image.png是(C)。

A.组内平方和B.组间平方和C.总离差平方和D.总方差

9.SSE的自由度是(B)。

A.r-1B.n-rC.r-nD.n-1

10.为研究溶液温度对液体植物的影响,将水温控制在三个水平上,则称这种方差分析是(A )。

A.单因素方差分析B.双因素方差分析C.三因素方差分析D.双因素三水平方差分析

二、多项选择题

1.运用方差分析的前提条件是(ACDE)。

A.样本来自正态总体B.各总体的均值相等C.各总体的方差相等D.各总体相互独立E.样本必须是随机的

2.在单因素方差分析中,计算F统计量,其分子与分母的自由度各为(CD )。其中n代表样本量,r代表分类变量水平数

A.rB.nC.r-1D.n-rE.n-1

3.方差分析的步骤一般包括(ABCDE )。

A.提出假设B.选择检验统计量C.计算检验统计量的观测值和概率P值D.给定显著性水平,并得出方差分析结果E.对方差分析的结果进行对比分析

4.对于单因素方差分析的组内误差,下面哪种说法是对的?(BE )。

A.其自由度为r-1B.反映的是随机因素的影响C.反映的是随机因素和系统因素的影响D.组内误差一定小于组间误差E.其自由度为n-r

5.在方差分析中,反映组平均值与总平均值的差异的是(BE )

A.组内平方和B.组间离差平方和C.总离差平方和D.总方差E.SSM

三、简答题

1.什么是方差分析?它研究的是什么?

方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它所研究的是非类型自变量对数值型因变量的影响。

2.要检验多个总体均值是否相等时,为什么不做两两比较,而用方差分析方法?

两两比较会让误差更无法控制

进行两两比较十分烦琐,进行检验的次数较多,随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加。而方差分析方法则是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真实的原假设。

3.方差分析包括哪些类型?它们有何区别?

单因素

双因素

多因素

4.方差分析中有哪些基本假定?

  1. 在水平Ai下,指标服从正态分布,即在同一水平下,观测指标的数据均来自正态总体。(所有水平下的因变量组成的数据必须时正态分布)
  2. 在不同水平下,方差σ2相等,即在不同水平下,观测指标的数据波动程度相同。(方差齐性)
  3. 数据yij相互独立。(同水平下因变量的不同样本之间相互独立)

5.解释组内误差和组间误差的含义。

SSM反映了每组数据均值和总平均值的误差,称为组间离差平方和,简称组间平方和

SSE反映了组内数据和组内平均的随机误差,称为组内离差平方和,或称为误差平方和。

6.解释组内方差和组间方差的含义。

组内方差指因素的同一水平(同一个总体)下样本数据的方差 组间方差指因素的不同水平(不同总体)下各样本之间的方差。

7.简述方差分析的基本步骤。

  1. 假设H0 :均值相等H1:不全相等
  2. 构造检验统计量(包括:计算各样本的均值、计算全部观测值的总均值、计算各误差平方和、计算统计量)
  3. 计算p值和f值
  4. 分析