信心区间的理解

423 阅读7分钟

信心区间的理解

信心区间的解释和不同情况下的计算方法,以及构成信心区间的方程式和其中涉及的参数。

郝亚辛-安帕杜25.00

5月8日, 2021

Article

简介

假设你在寻找一个人口特征的特定值,首先从该人口的样本中获得数据(可能是平均值),然后从抽样数据中猜测参数。由于没有使用整个人口,人们可能会问抽样数据是否是对整个人口的可靠估计。这就是置信区间的作用

置信区间是指人口中某一参数(真实值)位于某一数值范围内的概率。换句话说,它是指你有多大的信心,所获得的结果 反映了你在考虑到整个人口的情况下所期望的结果。置信区间与置信度有关,置信度是你期望你的估计在置信区间的上限和下限之间重现的次数。置信区间和水平都是处理百分比的。

置信区间

如前所述,在一定的置信度 内,你期望你的估计值位于的范围就是置信区间。 例如,如果你说你有90%的置信度,这意味着你非常确信90%的时候,你的估计值都在置信区间所指定的上下限之间

有一个值叫做阿尔法值,它表示一个阈值,例如,阿尔法值为0.1,这意味着在无效假设下,测试发生的可能性小于10%。再来看看我们的置信度,所希望的置信度通常是1减去统计测试中使用的这个α值。

因此,如果选择p<0.1的α值作为统计意义,那么置信度最终将是1-0.1= 0.9或90%

可信区间用于各种统计估计,如

  • 比例
  • 人口的平均数
  • 一个群体的平均数和比例之间存在的差异
  • 群体之间的变化估计

如同建议的那样,这些都是对一个数字的估计,并没有给出围绕这个数字的有价值的信息,但置信区间是了解这个数字的变化的更多信息的好方法。

为了更好地理解这一点,让我们看一个例子。假设我们对49名加纳人和49名尼日利亚人的阅读习惯进行调查,发现这两个民族每月平均阅读40小时。加纳人在阅读时间上有相当大的差异,而尼日利亚人的阅读量都差不多。因此,尽管两个民族都有相同的阅读时数(相同的点估计),但由于数据的变化,加纳人的置信区间比尼日利亚人的要宽。

信心区间的确定

为了确定一个估计的置信区间,应该知道以下几点。

  • 正在构建置信区间的点估计值
  • 临界值
  • 标准差
  • 样本大小

一旦知道这些信息,就可以通过将这些信息插入置信区间公式来计算置信区间。

点估计

点估计是你要做的统计估计,可以是比例、人口平均数或各组之间的变化)。在关于阅读时间的例子中,点估计是阅读时间的平均数(40)。

临界值的确定

临界值说明了你需要离开平均值多少个标准差才能达到置信区间的置信度。要找到这个临界值,需要遵循三个步骤。

1. **选择α值。如上所述,α值表示统计意义的概率阈值。一些常见的α值是p=0.05、0.1、0.01,按最常见的顺序排列。

2. 选择一个单尾区间或一个双尾区间:2.双尾区间是最常用的,它涉及到将α值分成两份,以便得到上下限(尾数)。一个区间只用于单尾t检验。

3.检查与所选α值相对应的临界值:如果所使用的数据集遵循正态分布,或者如果样本量很大(可能超过40个)并且接近正态分布,可以使用z分布来寻找临界值。表中的数值是一些常用的z统计量的数值

如果数据相当小,也就是低于40,而且接近正态分布,就用t分布来代替。就形状而言,t分布与z分布几乎相同,但它对较小的样本量进行了校正,而且还需要知道一个自由度。对于t分布和z分布来说,临界值在平均值的两边都是一样的。

对于所使用的关于阅读时数的例子,有超过40个观察值,它遵循正态分布,有时被称为钟形曲线,所以可以使用z分布。对于双尾90%的置信区间,α值为0.05,对应于1.64,这意味着为了计算置信区间的上下限,我们可以使用平均值+/-1.64的标准差。

标准差的确定

标准差可以很容易地找到,不需要任何统计软件。它基本上是方差的平方根,在数学上,它是。

其中N指的是人口规模,xi指的是人口中的每个值,mu指的是人口平均值。在我们的例子中,加纳人的估计值的方差是49,尼日利亚人的估计值的方差是16,方差的平方根给出了标准差,即标准差分别为7和4。

样本规模

样本大小基本上是数据中的观察值的数量。在我们的例子中,每个国籍的样本量是49个。

正态分布平均值的置信区间

正态分布的数据在图表中呈现出钟形,平均值在中间,其余的数据均匀地分布在平均值的两边。因此,该数据的置信区间为。

其中CI是置信区间,X是人口平均数,Z*是z分布的临界值。t分布的置信区间有相同的公式,但不是Z*,而是t*。在现实生活或实际环境中,人口的真实值并不清楚,除非也许对人口进行了完整的普查,因此在上述公式中,我们的数据中的样本被替换为人口值。

为了计算我们例子的置信区间,我们使用平均值、标准差和样本量。为了计算90%的置信区间,对于加纳。

所以对于加纳,90%置信区间的上界和下界分别为41.64和38.36。

对于尼日利亚。

对于尼日利亚,90%置信区间的上界和下界分别是40.94和39.06。

比例的置信区间

寻找比例的置信区间与寻找平均值的置信区间几乎相似,唯一的区别是用一个新的项目来代替标准差,可以在下面的公式中看到。

新的项目是p(1-p),是样本的比例,所以在我们的例子中,它指的是完全阅读书籍的人的比例。

非正态分布的置信区间

为了找到非正态分布数据的平均数的置信区间,你可以找到一个与你的数据形状相匹配的分布,并使用该分布来计算置信区间,或者转换你的数据,使其成为一个正态分布,并为该转换后的数据找到置信区间。

信心区间的解释

在解释置信区间时,应该包括上限和下限。在我们的案例研究中,我们可以这样解释和报告它。我们观察到加纳人和尼日利亚人每周阅读书籍的时间相同,但加纳人的估计值(90%置信区间=41.64和38.36)比尼日利亚人的估计值(90%置信区间=40.94和39.06)变化更大。

结论

我们在这篇文章中谈到了置信区间和置信度,并展示了如何在一些情况下计算这个置信区间。我们研究了寻找这个置信区间所需的方程式和参数。我们用一个例子来说明置信区间,这应该会给读者带来更多关于这个置信度的细节。置信区间是统计学的关键,最重要的是在数据科学中。

投票2票

置信区间置信度样本数据和标准偏差