☆SPSSAU学习

1,295 阅读5分钟

近百篇教程合集

通用方法

频数

频数:频数分析用于计算一个定类数据(比如性别,数字代表类别这类数据)的选择频数和比例 ##分类汇总 分类汇总:研究一个定类对定类的频数分析or一个定类对定量的频平均值分析 (汇总即平均值,此表说明男生的网购金额低于平均水平)

♥描述

♥描述:描述性统计,对多个定量数据进行统计描述

☆相关

☆相关:先画散点图看有无线性关系,再进行正态检验进行相关系数的选择 blog.csdn.net/t1560062467…

偏相关分析(类似差异关系中的调节作用):偏相关分析用于分析当两个变量都与第三 个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间的相关程度 zhuanlan.zhihu.com/p/71770534

典型相关分析

♥线性回归

♥线性回归 标准过程如下:

STEP1描述性统计分析一下数据的情况

定量变量: 定类变量:

STEP2 “箱线图”检查有无异常数据,看数据的分布;散点图检查X和Y的相关关系

STEP3:进行回归,进行异方差检验、VIF检验、显著性检验等,有异常则使用岭回归、lasso回归、偏最小二乘回归等等

差异关系:方差、t检验、卡方检验(参数检验)和非参数检验

参数检验

差异关系:通常是研究不同类别的差异性,如男生和女生(定性)的智力(定量)差异。

zhuanlan.zhihu.com/p/57756620

使用参数检验需要验证是否满足某种分布 若研究定量和定量的关系就用相关系数分析

  • 其实核心的区别在于:数据类型不一样。如果是定类和定类,此时应该使用卡方分析(可用对应分析进行可视化!);如果是定类和定量,此时应该使用方差或者T检验。
  • 方差和T检验的区别在于,对于T检验的X来讲,其只能为2个类别比如男和女。如果X为3个类别比如本科以下,本科,本科以上;此时只能使用方差分析。 根据X的不同,方差分析又可以进行细分。X的个数为一个时,我们称之为单因素方差;X为2个时则为双因素方差;X为3个时则称作三因素方差,依次下去。当X超过1个时,统称为多因素方差。

非参数检验

zhuanlan.zhihu.com/p/93196547 用来替代方差和t检验的定类和定量的差异关系研究方法 比如,使用方差分析时,需要在分析前对数据的正态性和方差齐性进行判断,如果服从正态性、方差齐性,才可以使用方差分析。反之,如果没有满足这些假设条件,则考虑使用非参数检验。

♥正态性检验

判断数据正态性的常见方法汇总 先只直观上用QQ图/直方图检验,再用下面这些检验方法 数据不正态分布如何办?

问卷研究

权重

AHP权重和优序图法(原理几乎一样)

SPSSAU是根据平均值自动构造判断矩阵(不科学!)

综合评价里面的AHP层次分析法可以自己输入判断矩阵!

♥对应分析(定类和定类的关系)

是卡方检验的升级版本,不仅可以检验不同定类变量之间的关系,而且可是以二维平面可视化

如研究收入水平和手机品牌偏好之间的关系情况: 通过分析可知:收入与手机品牌偏好之间,可细分出3个市场;低收入群体偏好于B、E品牌手机;中收入群体偏好于D品牌手机;高收入群体偏好于A、C、F三个手机品

♥路径分析(多个定量X和多个定量Y的相关关系)(类似偏最小二乘)

用回归来研究的话要做两次回归:ABC对D,AC对B,现在如果想用一个模型来表示则可以用路径分析!

STEP1先做一个基础模型结构 STEP2分析结果调整模型结构 调整手段:

  • 1 p值不过关的路径移除掉
  • 2 看MI指标:某一个路径的MI值>20,则添加此路径(辅助参考,符合实际再改)

【注】可能要用到“生成变量”操作,把多个变量合成一个变量;否则就是结构方程有测量关系(少用)

(*)调节作用分析&中介作用分析

调节作用是研究X对Y的影响时,是否会受到调节变量Z的干扰


当前有一个研究(样本量为200),自变量有两个,中介变量共有3个,因变量有一个,希望研究自变量X对于因变量Y的影响时,3个中介变量是否会起到桥梁中介作用。

可视化

散点图:研究XY相关性之前需要画一下

直方图:

PP图/QQ图:

箱线图:

*ROC曲线:评价二值分类器的指标( precision准确率也是一个指标) 医学诊疗:研究自变量能否用来预测是否患病(曲线面积越大效果越好)

♥象限图:研究预测值和实际值是否一致(回归、预测) 上图为输出结果情况,上图显示,大部分维度均在第一象限或者第四象限。维度12在第四象限。第一象限意味着期望高并且实际感知也很高;第三象限意味着期望较低同时实际感知也较低;整体上说明用户的期望与实际感知情况比较吻合,用户期望高的维度被满足,期望较低的维度也对应着相同的满意度。

帕累托图:可以帮助从多项因素中快速科学地找出最重要因素,便于研究者提出更有针对性的建议和解决措施。

数据处理

生成变量

常用的:

  • 多个指标合并成一个指标:求平均值(excel亦可)
  • 分类数值变量生成哑变量(STATA、excel亦可)
  • 去量纲:标准化、归一化

异常值处理