统计学基础
协方差
协方差是描述两个变量线性关系方向(正/负)和强度的核心指标,但其数值受量纲限制,需通过相关系数进行标准化。在数据分析中,协方差常用于构建协方差矩阵、评估多变量相关性,并广泛应用于金融、农业、工业控制等领域。
1. 数学定义
协方差(Covariance)是概率论和统计学中用于衡量两个变量总体误差的指标。其数学公式为:
其中:
• (X, Y):两个随机变量;
• (E[X]) 和 (E[Y]):分别为(X)和(Y)的期望值(均值);
• 公式本质上是两个变量偏离各自均值后的乘积的期望。
2. 物理含义
协方差的核心意义在于描述两个变量之间的协同变化趋势:
-
方向性:
• 正协方差():表示(X)与(Y)倾向于同向变化。例如,身高增加时,体重也倾向于增加(网页[3]中的示例)。
• 负协方差():表示(X)与(Y)倾向于反向变化。例如,学习时间增加时,考试错误率可能降低。
• 协方差为零():表示变量间无线性关系,但可能存在非线性关系(如)。 -
强度与局限性:
• 协方差的绝对值大小反映变量间线性关系的强弱,但由于其数值受变量量纲(单位)影响,无法直接比较不同数据集的关联强度。例如,身高(米)和体重(公斤)的协方差与身高(英尺)和体重(磅)的协方差数值不同,但它们的相关性(标准化后的协方差)是相同的。
• 为解决量纲问题,需引入相关系数(Pearson系数),将协方差标准化为范围[-1, 1]的无量纲值。
3. 与方差的区别
• 方差()衡量单个变量的离散程度,公式为,即协方差的特例。
• 协方差则描述两个变量的联合变化,是分析多维数据相关性的基础。例如,在金融中,协方差矩阵用于衡量不同资产收益的联动风险。
4. 实际应用示例
-
农业实验:
研究肥料对苹果产量的影响时,需控制“基础产量”(协变量)的影响。协方差分析可消除这一干扰因素,准确评估肥料的实际效应。 -
金融投资:
协方差用于衡量股票A与股票B的收益联动性。若协方差为正,表明两者同涨同跌,投资组合风险较高;若为负,可分散风险。
5. 协方差的局限性
• 仅反映线性关系:协方差无法捕捉非线性关联(如抛物线关系)。
• 受异常值影响:极端值会显著改变协方差的数值,需结合散点图分析。
时间序列基础概念
本质:时间序列一般由固定趋势、季节性变动和随机因素组成。
自相关性
当时间序列的随机因素在各时间点上完全独立时(例如白噪声序列),不同时点的观测值之间不存在任何相关性。此时,序列的统计特性(如均值、方差)无法通过历史数据推断未来,因为历史信息与未来状态无关联。例如,若股票收益率是纯随机波动,其历史波动无法预测明日涨跌,模型将失去预测意义。
幸运的是,对于一般的时间序列,在剔除固定趋势和季节效应后,时间序列在不同时点上是存在相关性的,这种自相关特征是我们对时间序列建模的基础。 与统计学的相关系数类似,在时序分析中采用相似的方法来表示时间序列的自相关特征。
平稳性
1. 弱平稳(Weak Stationarity)的数学定义
弱平稳是时间序列建模的基础,其核心条件通过以下公式严格定义:
• 均值函数为常数:
即序列中任意时刻的期望值均为常数 。
• 协方差函数仅与时间差相关:
协方差仅依赖于时间间隔 ,与具体时刻无关。
示例:若某股票日收益率满足弱平稳,则其今日与昨日收益率的协方差等于一周前某两天之间的协方差。
注意:方差稳定是协方差稳定的特例(k=0)
2. 强平稳(Strict Stationarity)的数学定义
强平稳性要求更严格,其定义为:
• 联合分布不变性:对于任意正整数 和时间点 ,有
即任意时间窗口的联合分布不随时间平移改变。
对比:
• 弱平稳仅关注前两阶矩(均值和协方差),而强平稳要求所有统计性质(包括高阶矩)不变;
• 实际应用中,高斯过程的弱平稳等价于强平稳(因正态分布由均值和协方差唯一确定)。
3. 平稳性的实质意义:时间平移不变性假设
平稳性的核心价值在于其对“历史与未来统计一致性”的假设:
• 预测基础:若序列平稳,则其均值、方差等统计特征在时间轴上保持恒定,使得基于历史数据的模型可外推至未来预测。
• 非平稳序列的风险:非平稳序列(如存在趋势或季节性)的统计特性随时间变化,导致历史模型失效。例如,若股票价格存在趋势性上涨(非平稳),其历史均值和方差无法反映未来波动。
ARMA(Auto Regressive Moving Average)
1. 模型定义
ARMA(p, q) 是时间序列分析中的经典模型,结合了 自回归(AR) 和 移动平均(MA) 两种机制,用于对平稳时间序列进行建模和预测。
- AR(p) :用过去 p 期的历史值预测当前值。
- MA(q) :用过去 q 期的预测误差修正当前值。
2. 数学公式
ARMA(p, q) 的一般形式为:
注意,模型公式包含当前误差 ϵt,但实际预测时无法使用它,需用估计值(0)替代。
3. 核心假设
-
均值稳定性:假设时间序列的均值恒定,即长期趋势为零,序列围绕固定值波动,无趋势或季节性。
- AR部分需满足平稳性
- 长期均值稳定
-
方差稳定性:假设序列波动幅度恒定,即方差 Var(yt)=σ2 为常数,置信区间可靠。
- AR部分需满足平稳性(防止方差发散)。
- 误差项 ϵt 的方差固定。
-
协方差稳定性:自相关性仅依赖时间间隔,参数估计准确。
ARIMA(Auto Regressive Integrated Moving Average):针对非平稳序列
差分处理
通过 差分(Differencing) 将非平稳序列转换为平稳序列,再应用ARMA模型。
- 一阶差分(消除线性趋势):
∇yt=yt−yt−1 - 二阶差分(消除曲线趋势):
∇2yt=∇yt−∇yt−1 - 季节性差分(消除周期性):
yt−yt−12(月度数据示例)
示例:咖啡店销售额存在年度增长趋势,一阶差分后序列平稳。
预测与还原
ARIMA模型的预测分为两个阶段:
- 预测差分序列:对差分后的平稳序列(如 ∇yt=yt−yt−1)进行预测。
- 逆差分还原:将差分预测值逐层还原为原始尺度(如咖啡店的实际销量)。
残差迭代
- 初始值设定
- 迭代优化参数