行为科学统计读书纪要

212 阅读14分钟

内容提要

将这本书作为统计学的入门学问真是太好了,学统计学就像垒积木一样好玩,这本书介绍的统计学逻辑其实很简单:
1,我们测量样本的数据
2,我们做无效假设的猜想
3,我们测量的样本数据是否远大于无效假设猜想
4,得出结论
感觉这本书可以从另外一个角度划分
1,可以通过样本的具体数值,对总体进行估计
2,可以通过样本的概率对总体进行估计
3,通过顺序量表进行检验
注意对于第一种来说是可以计算的,例如平均数,离差,等,z检验,t检验,t重复检验,方差分析等等。但是对于概率类的数据我们无法计算,例如,人们的智商和情绪的稳定性,喜欢的颜色和性格之间的关系,这些无法定量计算,就需要使用卡方拟合分析。 统计学的核心问题就是: 我们的样本数据是随机误差造成的还是系统处理造成的。我们能在多大程度上肯定处理的有效性。 当然如果懂得概率论再读这本书就更好了。这本书的逻辑结构也非常清晰,1,是否相关,2,相关强度如何量化,3,检验的前提条件。对于卡方检验和顺序量表,这篇文章不做讨论,感兴趣的同学可以自行学习,因为以后我用到的大部分内容均为可计算的数组。下面我们正式开始:

入门

首先同学们可以考虑什么是统计学?其实如果你是一个贝叶斯主义者,就知道任何事物都是有置信度的,例如太阳明天会升起来,置信度接近100%。我们需要根据观察到的事实,来更新我们的信念。世界尚不存在置信度为100%的事物,我们需要统计学来统计一个规律,根据样本数据来推断,对总体的处理有效的结果的置信度是多少?所以我们需要一套科学的方法论,来得到我们结果,这就是统计学。
这套学问需要用概率论作为基础(但是这本书不太需要),和一系列定义内容,下面是重要的:
1,总体:我们希望研究事物的全部
2,样本:我们从总体中选取一部分,我们期望他能代替总体,被我们研究,所以样本的选取必须是随机的,以及样本的误差如何处理。
3,变量:实验中可以被操作的量,

描述性统计

频数分布表,频数分布图,直方图,折线图,茎叶图,平均数,中数,众数,集中趋势和分布形状,方差,自由度,要记住没有最好的方法,每种方法都是未来能更好的表现整体的数据,虽然统计学是数学的分支在做量化,但是图标的形式比数据的形式更加直观。这些都是描述性统计。我们得到数据后不能只做描述,我们的目的是要推断总体,我们需要用到推断性统计的知识。

推断性统计

我们拿到描述性数据后,需要对总体进行推断,怎么推断呢?需要对总体进行假设,假设有两种方式,处理无用假设,和处理有效假设。其实证明处理有效是比较困难的,统计学一般假设统计无效,然后根据数据,看看能否否定假设无效。间接证明处理有效。

推断统计原理

仔细思考这个问题:我们怎么知道我们的样本能多大程度上表达总体,当然样本越大越容易接近总体,但是我们的总体是无限的,这就是涉及到一个非常深刻的数学概念:中心极限定理,当然如果概率论学的好的话非常有帮助。正态分布是数学中重要的分布,我们来考虑两种情况:

总体分布是正态分布

如果总体分布是正态分布,那么随机进行取样,那么样本的平均数分布,就是正态分布。

总体分布不是正态分布

根据中心极限定理,对于任意平均数为μ,方差为是σ,样本大小为n的样本平均数分布,具有平均数为μ,标准差为是σ/√n,并且当n趋于无穷时,分布将趋于正态分布。
问题是我们怎么计算样本的平均数和总体平均数之间的误差呢?这就是标准误σ/√n,量化了样本平均数和总体平均数之间允许存在的误差,可以看到这符合大数定律,样本个数越多误差越小。可以让研究者清楚样本在多大程度上代表了整体,又称为样本变异性,如果标准误比较小就说明如果再次选取样本和原来样本是比较相似的。

假设检验

1,陈述假设
2,为判定设定标准,ɑ水平,临界区域
3,收集数据并计算样本统计量
4,做出判定

Z检验

假设我们知道总体平均数大小,然后我们取出样本,对样本施加一个处理,假设处理是无效的。那么样本平均数就不该有变化,现在我们计算出处理后样本的平均数,那么z分数为:(M-μ)/标准误;如果M-μ的值比标准误大的多,我们就认为,数据的误差不可能是取样误差引起的,从而拒绝虚无假设。这里的标准误是总体的方差除以√n,总体允许的误差。 仔细思考一下z检验需要的条件:
1,我们需要保证样本能够代表整体,这就需要样本取样随机,
2,我们把标准误作为分母,其实就是默认,处理前后标准差一致,这就要求处理的方差一致性,大部分情况是无法满足的
3,计算出来的z值我们和正态分布进行比较,就要求整体是正态分布。
4,独立观察(基本要求)

方差齐次性检验

怎么检验我们的样本符合方差其次性呢?一个简单的检验是观察两个样本的方差,如果两个样本方差近似,那就认为还过的去,其实就是独立计算每个样本的方差,然后用最大的方差除以最小的方差,观察比值。其实还是查表,比较。

统计能效

检验能正确的拒绝错误的虚无假设的概率,就是检验能够真正的识别处理效应的概率, image.png

科恩d值

假如说我们拒绝了虚无假设,那么处理效应应该如何量化呢?科恩d值是对处理效应的量化,所谓一图胜千言,上图,展示了处理效应对总体的影响程度。 1710236323554.png

t检验

z检验存在一个问题,就是需要知道总体的方差,但是大多数时候我们是不知道的。因为我们检验的目的就是为了了解总体,这里就出现了矛盾,所以我们使用样本的标准误来计算,他也提供了从样本平均数到总体平均数的标准距离估计。至于为什么是这样还不太清楚。需要继续学习。估计标准误 = √(样本方差/样本大小);我们会注意到不同的t检验的对应不同的t值t检验和自由度相关:

1710310721436.png

1710310770472.png

两个独立样本的t检验

不管是z检验还是t检验都是用一个样本为基础,如果我们同时研究两个独立样本的t检验,或者我们将同一样本在测量前测量后比较,就可以分为两类,独立测量研究设计,和重复测量研究设计

独立测量研究设计

1710311294820.png 其实就是样本平均数差异和估计标准误之间的比例。计算两个样本的标准误容易出错,记住一点样本增加了,样本的标准误就会增加;如图:

1710311451971.png

image.png

自由度为两个样本大小的和减去2。 我们通过比较t值就能得到两个不同的处理是不有效用。

重复测量t检验

其实和单独测量差不多,由于我们没有两个平均数,故我们对每个检验的差值进行计算。

image.png 计算d值的平均数和总体平均数差值比较,总体平均数差值为0,我们可以从样本中得到差异的方差,除以自由度,得到差异的标准误,我们就可以计算差异的平均数和标准误之间的比值,从而可以根据自由度查表,看看能否拒绝虚无假设。

估计

不管是t检验还是z检验,只是让我们拒绝虚无假设,并没回答处理效应的问题。估计用来回答处理的效应究竟有多大,怎么量化这个处理效应,这背后的逻辑是每个总体参数都有相应的样本统计量,统计的效应并不一定意味着这个效应大到“可以应用到实际中”,再估计中我们不再计算t值,而是估计出t的合理范围,我们就可以得到较为合理的总体参数。计算公式和假设检验是一样的。只是计算方式不同。用一句话概括即使我们有**%的可信度(置信区间)相信我们处理的效果在多少之间。可以认为是假设的一个可逆的过程。

方差分析(ANOVA:Analysis of Variance)

我们用来评估两个或多个处理之间的平均数差异,方差分析和t检验做了相同的工作,只是用的方法不同,方差分析是更为强大的工具。t只能处理两种情况,方差分析我们可以比较两个或者更多的处理,并且有更大的灵活性。我们思考一下对多个样本的处理问题,如果样本超过两个,例如两个样本,重复测量,怎么比较处理的有效性呢? 其实我们还可以根据以前的逻辑,不过这次我们用方差表示 F = 样本间方差的差异 / 偶然引起的期望方差。可以和t检验进行比较 t = 样本间平均数差异 / 偶然引起的期望差异。可以看到基本上是一个逻辑,样本差异/取样偶然差异。
那么我们怎么计算样本间方差的差异和偶然引起的期望方差呢? 首先请注意方差分析的计算逻辑有点复杂,但是规律较为简单,我们测量数据的目的是研究数据差异的大小和解释这些差异的来由。我们首先全部样本的总体差异,然后是不同处理样本间的差异,然后是处理内的差异。总体的差异应该是处理间差异和处理内差异的和。这两部分是方差分析的核心内容。我们仔细思考处理间的差异是什么造成的呢?分为两块,处理效应和偶然误差。处理内的差异都是由偶然误差引起的。故F分数就是 F= 处理间的方差/处理内的方差所以很明显如果F接近于1那么就是处理效应很不明显可以忽略。
F可以通过F分布进行查询。 自由度分析 我们通过离差计算方差,我们就需要自由度。自由度分析是不可少的。很明显总体的自由度为N-1;N是所有样本的总和,处理内的自由度为 ∑(n-1),n为处理内的样本个数,处理间的自由度为K-1,k为分组数。这个就比较简单了。 明白了上面的逻辑,剩下的就是简单的计算了,但是我们的测量分为两种一种是独立测量,一种是重复测量。这两个的计算大同小异。

独立测量方差分析

1710383093491.png

重复测量方差分析

我们仔细思考一下独立测量和重复测量的不同,其实重复测量解决了因个体不同而引起的差异。所以我们需要对独立测量方差分析加上后续方法消除个体的差异。处理内的差异可以分为两块,偶然差异和个体差异。需要将个体差异减去。 F = 处理间的方差(没有个体差异)/ 处理内的方差(个体差异被消除),接下来的任务就是怎么得到处理内,个体差异,然后将这一块减去。我们要理解逻辑而不是计算,要理解清楚被试间的差异。具体计算如下:

1710383817139.png 196d5efbabf808c91836e06e71b546e.jpg

1710383777801.png

独立测量双因素方差分析

我们上面研究的都是处理效应对总的影响程度,更深一步,如果一个效应是多个处理引起的呢?或者必须多个处理同时叠加才能观察到处理效应,我们怎么分析呢?这里来回答这个问题。
我们可以研究两个变量之间的关系。现实中一般都是多个自变量,一个因变量。例如我们研究温度和湿度的变化对工作效率的影响。
不要觉得很麻烦,我们慢慢分析,我们还是在研究处理引起的差异和数据的偶然我误差之间的比值。我们还要一步一步来,来计算总方差,处理间的方差,处理内的方差,但是这里面有一点要明确,处理间的方差分成了三块,因素A引起的方差,因素B引起的方差,交互作用引起的方差。交互作用引起的方差我们不太好计算,我们可以通过求出A和B的方差,间接得到。

1710384259155.jpg

1710384720026.png 对A的方差计算和对B的方差计算和上面的单一因素是一样的,我们要懂得多因素方差分析的处理逻辑,和理由就行了,具体的计算,可以到时候再翻书本。怎么样简单吧。

重复测量双因素方差分析

无,这本书并没有介绍,其实我们可以类比,然后再扩展,例如独立测量n因素方差分析,想想都觉得头大。不知道再具体实践中要用到哪些,我们待定吧。三因素或者四因素方差分析,得到的数据基本正常人无法理解。我们回头再说吧。

结束语

到这里这本书的内容结束,仔细考虑的话这里面有好多问题.
例如t检验我们为什么可以用样本的方差代替总体的方差进行计算?这里面到底有多大差异?怎么给出量化指标,这个量化指标应该如衡量,因为总体一直是未知的。
。 在估计中我们假定t值,我们如果确保这个t值能代表总体呢?估计的可信度确实是这样吗?
样本的取样问题?我们究竟样本取值是多少才能比较合理的代表样本呢?我们样本太小的话将不再符合中心极限定理,统计学的基石就坍塌了。
这些问题该如何解决呢?聪明的你可能会有答案。