统计模型学习

367 阅读4分钟

一、多元回归模型(multiple regression)

1.适用场景:研究变量间的相互影响关系,用于定量描述一个因变量与多个自变量之间的函数关系,主要是进行解释和预测等。

2.分类:强调线性回归 非线性的关系我们都可以通过函数变化线性化,比如Y=a+bLnX,可以令t=LnX,方程就变成了 Y=a+bt。
3.回归分析检验:
1)回归方程的显著性检验(F统计量)
2)回归系数的显著性检验(t检验)
3)自变量间的多重共线性检验(方差膨胀因子检验)
4)模型拟合优度检验(R^2检验)

二、聚类分析

1.适用场景:指标降维,主要是把全体数据组织成一些相似(定义一个距离或相似性系数)组(簇),又称无监督学习,应用于数据预处理使复杂数据标准化。商业上用于发现并刻画不同客户群寻找潜在市场。

2.分类:基于划分、层次、密度、网络、模型的聚类方法(典型算法包括K均值(经典的聚类算法)、DBSCAN、两步聚类、BIRCH、谱聚类等)
3.类的距离算法:最短距离、最长距离、中间距离、重心、类平均、可变类平均、可变法、利差平方和法
三、分类
1.适用场景:典型的有效监督机器学习方法,目的是从一组已知类别的数据中发现分类模型来预测新数据的未知类别。

2.分类:神经网络、决策树
3.注意事项
A. 神经网络适用于下列情况的分类:
(1) 数据量比较小,缺少足够的样本建立数学模型
(2) 数据的结构难以用传统的统计方法来描述
(3) 分类模型难以表示为传统的统计模型
B.神经网络的优点:
分类准确度高,并行分布处理能力强,对噪声数据有较强的鲁棒性和容错能力,能够充分逼近复杂的非线性关系,具备联想记忆的功能等。
C.神经网络缺点:
需要大量的参数,不能观察中间学习过程,输出结果较难解释,会影响到结果的可信度,需要较长的学习时间,当数据量较大的时候,学习速度会制约其应用。
四.判别分析
1.适用场景:基于已知类别的训练样本,对未知类别的样本判别,是有监督的学习方法,是分类的一个子方法。
2.分类:根据判别分析方法的不同可以分为:距离判别法、FISHER判别法、BAYES判别法、逐步判别法
五.主成分分析
1.适用场景:是一种降维的数学方法,通过降维技术将多个变量化为少数几个主成分的统计分析方法,主要用于建模中的降维、系统评估、回归分析、加权分析等。 2.注意: 1)综合指标独立或互不干涉
2)每个综合指标所反映的各样本的总信息量等于对应特征向量的特征值,通常选取的综合指标特征值贡献率之和应在80%以上。
3)应用上侧重信息贡献影响度的综合评价
4)主成分因子负荷的负号有正有负的时候,综合评价的函数意义不明确。
六.因子分析
1.适用场景:将变量总和为数较少的几个因子,是降维的数学技术。 与主成分分析的区别:探索性分析方法,通过用最少的几个不可观察的变量来说明出现在可观察变量中的相关模型,提供了一种有效的利用数学模型来解释事物之间的关系,是主成分分析的推广和发展。 2.分类:R型因子分析(变量的研究)、Q型因子分析(样本的研究) 七.时间序列
1.适用场景:在时间序列变量分析的基础上,用数学方法建立预测模型,从而预测未来市场的变化趋势进行变量预测。假定事物的过去趋势会延续到未来,撇开市场发展的因果关系。

2.变动形态分类:长期趋势变动、季节变动、循环变动、不规则变动
方法分类:平均数预测、移动平均数、指数平滑法、趋势法、季节变动法 3.注意: 1)季节变动法需要3年以上数据资料 2)移动平均法短期预测较准确,长期效果较差 3)移动平均可以消除或减少时间序列数据受偶然因素干扰产生的随机变动影响