方差分析用途
方差分析,用于比较「类别型特征」的不同分类在「连续型特征」上的均值,是否存在显著差异。有两点需要注意:【1.】类别型特征不同分类的类别数>=3。如果特征“不同分组”的类别数=2,使用t检验,可以把方差分析看作t检验的延伸。【2.】在连续型特征上的均值,是否存在显著差异。K个分类,用假设检验的语言描述就是:
原假设: H0:μ1=μ2=…=μK
备择假设: H1:μ1 、 μ2 、...、 μK不全相等
均值 μ1 、μ2 、...、μK 不全相等,也就是有些类别的均值可以相等,但是,只要有一个类别的均值和其余类别的不相等,就可以拒绝原假设,接收备择假设。
例如,微信视频号上的视频分区,分为科学区、娱乐区、生活区,比较不同分区的视频播放量平均值差异。这里,视频分区就是一个「类别型特征」,视频播放量就是一个「连续值特征」,科学区、娱乐区、生活区就是类别型特征的「不同分类」,比较不同分区的视频播放量平均值差异,对应的原假设:不同分区的视频播放量的平均值全相等,备择假设:不同分区的视频播放量的平均值不全相等。
此外,在做方差分析时,要求不同分类的个体之间是相互独立的,就是每个分类包含的样本,与另外的分组包含的样本之间是没有任何关联的。
公众号原文 一文掌握方差分析:因果推断的统计学基础
如何做方差分析
将数据「整体波动」SST分成两部分:「组内波动」SSW和「组间波动」SSB,通过比较这两种波动,可以判断各类别的均值是不是相等的,即SST=SSW+SSB。「整体波动」是指包含各个类别,数据的波动情况。「组内波动」是指某一类别内,数据的波动情况。「组间波动」是指不同类别间,数据的波动情况。数据的波动情况,指的是某个连续型特征平均值的离散程度。
情况1:

各个分区组内的视频播放量都相等,即组内波动SSW=0,则有整体波动SST=组间波动SSB。
情况2:

各个分区的数据分布一样,即组间波动*SSB*=0,则有整体波动*SST*=组内波动*SSW*。由此可见:(1.)组内波动*SSW*在整体波动*SST*中的占比越大,组间波动*SSB*在整体波动*SST*中的占比越小,各组均值相等的可能性越大。(2.)组内波动*SSW*在整体波动*SST*中的占比越小,组间波动*SSB*在整体波动*SST*中的占比越大,各组均值相等的可能性越小。
问题是,组间波动SSB要在整体波动SST中的占比多大,才算大呢? 通过构造F统计量,判断组间波动SSB在整体波动SST中的占比,是否足够大,大到可以拒绝原假设。
公众号原文 一文掌握方差分析:因果推断的统计学基础
方差分析计算流程
第一步,分别计算整体波动SST、组内波动SSW、组间波动SSB。
SST=i=1∑n(xi−整体均值 X)2SSW=gj=1∑Ki∈gj∑(xi−组内均值 xi)2SSB=gj=1∑Ki∈gj∑(组内均值 xi− 整体均值 X)2
第二步,构造F统计量。
F 统计量=卡方分布2 / 自由度2卡方分布1 / 自由度1
若n个相互独立的随机变量x1,x2,…,xn均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
自由度就是计算某一个指标时,使用的能够贡献信息的样本数。
当xi是服从正态分布的随机变量,所以,可以构造
F 统计量=组内波动 SSW/df(组内)组间波动 SSB/df(组间)=组内波动 SSW/∑分组数(每组样本数 −1)组间波动 SSB/(分组数 −1)
第三步,根据F统计量的取值查表,得出原假设是否显著结论。
根据F统计量取值,查表:如果F统计量很大,则查表得到的p值<0.05,则说明SSB显著大于SSW,即各组之间的平均值有显著差异,拒绝原假设。
公众号原文 一文掌握方差分析:因果推断的统计学基础
示例
假设,有如下视频各分区播放量的数据:


方差分析又可以细分为单因素方差分析、双因素方差分析,这里,“因素”就是指“类别数>=3的类别型特征”。上面,已经基于单因素方差分析,给出了详细的介绍。双因素方差分析,就是同时考察两个类别型特征交叉后得到类别分组,在某个连续型特征上取值的均值是否有显著差异,本文先不展开描述。关于方差分析的内容基本介绍完了,对相关主题感兴趣的读者欢迎留言交流讨论。更多优质内容请欢迎扫码关注 瑞行AI:
