通用方法
频数
频数:频数分析用于计算一个定类数据(比如性别,数字代表类别这类数据)的选择频数和比例
##分类汇总
分类汇总:研究一个定类对定类的频数分析or一个定类对定量的频平均值分析
(汇总即平均值,此表说明男生的网购金额低于平均水平)
♥描述
♥描述:描述性统计,对多个定量数据进行统计描述
☆相关
☆相关:先画散点图看有无线性关系,再进行正态检验进行相关系数的选择
blog.csdn.net/t1560062467…
偏相关分析(类似差异关系中的调节作用):偏相关分析用于分析当两个变量都与第三 个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间的相关程度 zhuanlan.zhihu.com/p/71770534
典型相关分析
♥线性回归
♥线性回归:
标准过程如下:
STEP1描述性统计分析一下数据的情况
定量变量:
定类变量:
STEP2 “箱线图”检查有无异常数据,看数据的分布;散点图检查X和Y的相关关系
STEP3:进行回归,进行异方差检验、VIF检验、显著性检验等,有异常则使用岭回归、lasso回归、偏最小二乘回归等等
差异关系:方差、t检验、卡方检验(参数检验)和非参数检验
参数检验
差异关系:通常是研究不同类别的差异性,如男生和女生(定性)的智力(定量)差异。
使用参数检验需要验证是否满足某种分布
若研究定量和定量的关系就用相关系数分析
- 其实核心的区别在于:数据类型不一样。如果是定类和定类,此时应该使用卡方分析(可用对应分析进行可视化!);如果是定类和定量,此时应该使用方差或者T检验。
- 方差和T检验的区别在于,对于T检验的X来讲,其只能为2个类别比如男和女。如果X为3个类别比如本科以下,本科,本科以上;此时只能使用方差分析。
根据X的不同,方差分析又可以进行细分。X的个数为一个时,我们称之为单因素方差;X为2个时则为双因素方差;X为3个时则称作三因素方差,依次下去。当X超过1个时,统称为多因素方差。
非参数检验
zhuanlan.zhihu.com/p/93196547
用来替代方差和t检验的定类和定量的差异关系研究方法
比如,使用方差分析时,需要在分析前对数据的正态性和方差齐性进行判断,如果服从正态性、方差齐性,才可以使用方差分析。反之,如果没有满足这些假设条件,则考虑使用非参数检验。
♥正态性检验
判断数据正态性的常见方法汇总
先只直观上用QQ图/直方图检验,再用下面这些检验方法
数据不正态分布如何办?
问卷研究
权重
AHP权重和优序图法(原理几乎一样)
SPSSAU是根据平均值自动构造判断矩阵(不科学!)
综合评价里面的AHP层次分析法可以自己输入判断矩阵!
♥对应分析(定类和定类的关系)
是卡方检验的升级版本,不仅可以检验不同定类变量之间的关系,而且可是以二维平面可视化
如研究收入水平和手机品牌偏好之间的关系情况:
通过分析可知:收入与手机品牌偏好之间,可细分出3个市场;低收入群体偏好于B、E品牌手机;中收入群体偏好于D品牌手机;高收入群体偏好于A、C、F三个手机品
♥路径分析(多个定量X和多个定量Y的相关关系)(类似偏最小二乘)
用回归来研究的话要做两次回归:ABC对D,AC对B,现在如果想用一个模型来表示则可以用路径分析!
STEP1先做一个基础模型结构
STEP2分析结果调整模型结构
调整手段:
- 1 p值不过关的路径移除掉
- 2 看MI指标:某一个路径的MI值>20,则添加此路径(辅助参考,符合实际再改)
【注】可能要用到“生成变量”操作,把多个变量合成一个变量;否则就是结构方程有测量关系(少用)
(*)调节作用分析&中介作用分析
调节作用是研究X对Y的影响时,是否会受到调节变量Z的干扰
当前有一个研究(样本量为200),自变量有两个,中介变量共有3个,因变量有一个,希望研究自变量X对于因变量Y的影响时,3个中介变量是否会起到桥梁中介作用。
可视化
散点图:研究XY相关性之前需要画一下
直方图:
PP图/QQ图:
箱线图:
*ROC曲线:评价二值分类器的指标( precision准确率也是一个指标) 医学诊疗:研究自变量能否用来预测是否患病(曲线面积越大效果越好)
♥象限图:研究预测值和实际值是否一致(回归、预测)
上图为输出结果情况,上图显示,大部分维度均在第一象限或者第四象限。维度12在第四象限。第一象限意味着期望高并且实际感知也很高;第三象限意味着期望较低同时实际感知也较低;整体上说明用户的期望与实际感知情况比较吻合,用户期望高的维度被满足,期望较低的维度也对应着相同的满意度。
帕累托图:可以帮助从多项因素中快速科学地找出最重要因素,便于研究者提出更有针对性的建议和解决措施。
数据处理
生成变量
常用的:
- 多个指标合并成一个指标:求平均值(excel亦可)
- 分类数值变量生成哑变量(STATA、excel亦可)
- 去量纲:标准化、归一化