一、方差分析
1. 方差分析的基本概念
单因素方差分析(One Way ANOVA,One Way Analysis Of Variance)是一种统计学假设检验方法,常用于分析单个因素的加入对变量的影响有无显著性。
有必要再多费点口舌,解释一下以上描述。通俗一点,方差分析就是指分析单因素的变化给总体带来的变化和波动是否显著的过程。而总体的变化和波动是通过方差、标准差来度量的,问题也就转化为研究单因素的加入,样本对应的总体是否具有不一样的方差。
方差分析的目的:
检验两个样本对应的总体是否具备方差齐性,即两个总体是否等方差。
两个样本是否具备相同的方差,直接通过计算样本方差S^2即可,但我们关注的不是一次抽样的样本方差,而是这组样本对应的总体的方差。用样本方差来估计总体方差,需要进行假设检验辅助验证推断。
F检验这名称是由美国数学家兼统计学家George W. Snedecor命名,为了纪念英国统计学家兼生物学家罗纳德·费雪(Ronald Aylmer Fisher)。Fisher在1920年代发明了这个检验和F分配,最初叫做方差比率(Variance Ratio)。
方差分析(ANOVA)的“别称”
- 方差比率检验
- F检验(F-Test)
- 联合假设检验
- 方差齐性检验
2. 方差分析的计算公式
统计量F值的计算公式,如下所示。通过比较F值与0.05/0.01置信度对应的F临界值,判断统计量是落在拒绝域还是接受域,从而给出接受还是拒绝H0假设的推断结论。F值<F表(即F临界值),落在接受域,接受零假设H0:两组数据的方差相等;否则,F值>=F表(即F临界值)落在拒绝域,拒绝零假设H0:两组数据的方差相等,接受备择假设,即两组数据方差不相等。
F检验还是是T检验的前提动作,实施T检验的前提是要厘清两组样本是等方差还是异方差。
- 等方差-> 采用【t-检验: 双样本等方差假设】
- 异方差-> 采用【t-检验: 双样本异方差假设】
3. 方差分析的适用条件
方差分析的前提条件:
- 样本对应的总体服从正态分布
- 样本之间相互独立
如果样本对应的总体不服从正态分布,则不适合使用方差分析,而应该选用非参数检验,诸如Mann-Whitney U Test,此处不作详细展开。(是否服从正态分布可以通过K-S检验来验证推断,可参考文章:干货,手把手教你做相关性分析)
二、Excel数据分析工具库-单因素方差分析
三、结果解读
- 组间:
df组间 = 组数s - 1 = 10 -1 = 9
MS组间 = SS组间 / df组间 = 0.720046732/9 = 0.08000519
F = MS组间 / MS组内 = 0.08000519 / 0.11936129 = 0.67027753
P-value > 0.05,接受零假设H0:两组样本对应的总体等方差,无显著差异
F crit 是P-value = 0.05对应的临界值,F < F crit也可以推断出落在接受域,接受零假设H0- 组内:
df组内 = 样本n - 组数s = 17812 - 10 = 17802- 总计:
SS总计 = SS组间 + SS组内 = 0.720046732 + 2124.869738 = 2125.589785
df总计 = df组间 + df组内 = 9 + 17802 = 17811
结论:有95%的把握说两组样本对应的总体方差相等,无显著差异。若需要进行T检验,进一步判断这两组样本的均值是否相等,可以进行双样本等方差的t-检验。
👏👏👏再看看我们以前的文章😃😃😃
🌺 Excel中数据分析工具库-相关系数篇
🌺 干货,手把手教会你做相关性分析
🌺 5年数据分析路,小结。
🌺 用户细分及画像分析
🌺 K-近邻算法及实践
欢迎关注,微信公众号“数据分析师之家”
扫描二维码 关注我们
💁提供职业规划、简历指导、面试辅导服务哦
QQ交流群:254674155