时间序列预测模型

384 阅读6分钟

统计学基础

协方差

协方差是描述两个变量线性关系方向(正/负)和强度的核心指标,但其数值受量纲限制,需通过相关系数进行标准化。在数据分析中,协方差常用于构建协方差矩阵、评估多变量相关性,并广泛应用于金融、农业、工业控制等领域。


1. 数学定义

协方差(Covariance)是概率论和统计学中用于衡量两个变量总体误差的指标。其数学公式为:

Cov(X,Y)=E[(XE[X])(YE[Y])]\text{Cov}(X, Y) = E\left[(X - E[X])(Y - E[Y])\right]

其中:
• (X, Y):两个随机变量;
• (E[X]) 和 (E[Y]):分别为(X)和(Y)的期望值(均值);
• 公式本质上是两个变量偏离各自均值后的乘积的期望。


2. 物理含义

协方差的核心意义在于描述两个变量之间的协同变化趋势

  1. 方向性
    正协方差Cov(X,Y)>0\text{Cov}(X, Y) > 0):表示(X)与(Y)倾向于同向变化。例如,身高增加时,体重也倾向于增加(网页[3]中的示例)。
    负协方差Cov(X,Y)<0\text{Cov}(X, Y) < 0):表示(X)与(Y)倾向于反向变化。例如,学习时间增加时,考试错误率可能降低。
    协方差为零Cov(X,Y)=0\text{Cov}(X, Y) = 0):表示变量间无线性关系,但可能存在非线性关系(如Y=X2Y = X^2)。

  2. 强度与局限性
    • 协方差的绝对值大小反映变量间线性关系的强弱,但由于其数值受变量量纲(单位)影响,无法直接比较不同数据集的关联强度。例如,身高(米)和体重(公斤)的协方差与身高(英尺)和体重(磅)的协方差数值不同,但它们的相关性(标准化后的协方差)是相同的。
    • 为解决量纲问题,需引入相关系数(Pearson系数),将协方差标准化为范围[-1, 1]的无量纲值。


3. 与方差的区别

方差Var(X)\text{Var}(X))衡量单个变量的离散程度,公式为Var(X)=Cov(X,X)\text{Var}(X) = \text{Cov}(X, X),即协方差的特例。
协方差则描述两个变量的联合变化,是分析多维数据相关性的基础。例如,在金融中,协方差矩阵用于衡量不同资产收益的联动风险。


4. 实际应用示例
  1. 农业实验
    研究肥料对苹果产量的影响时,需控制“基础产量”(协变量)的影响。协方差分析可消除这一干扰因素,准确评估肥料的实际效应。

  2. 金融投资
    协方差用于衡量股票A与股票B的收益联动性。若协方差为正,表明两者同涨同跌,投资组合风险较高;若为负,可分散风险。


5. 协方差的局限性

仅反映线性关系:协方差无法捕捉非线性关联(如抛物线关系)。
受异常值影响:极端值会显著改变协方差的数值,需结合散点图分析。

时间序列基础概念

本质:时间序列一般由固定趋势、季节性变动和随机因素组成。

自相关性

当时间序列的随机因素在各时间点上完全独立时(例如白噪声序列),不同时点的观测值之间不存在任何相关性。此时,序列的统计特性(如均值、方差)无法通过历史数据推断未来,因为历史信息与未来状态无关联。例如,若股票收益率是纯随机波动,其历史波动无法预测明日涨跌,模型将失去预测意义。

幸运的是,对于一般的时间序列,在剔除固定趋势和季节效应后,时间序列在不同时点上是存在相关性的,这种自相关特征是我们对时间序列建模的基础。 与统计学的相关系数类似,在时序分析中采用相似的方法来表示时间序列的自相关特征。

平稳性

1. 弱平稳(Weak Stationarity)的数学定义

弱平稳是时间序列建模的基础,其核心条件通过以下公式严格定义:
均值函数为常数
E(Xt)=μ(t)E(X_t) = \mu \quad (\forall t)
即序列中任意时刻的期望值均为常数 μ\mu
协方差函数仅与时间差相关
Cov(Xt,Xt+k)=γ(k)(t,k)\text{Cov}(X_t, X_{t+k}) = \gamma(k) \quad (\forall t, k)
协方差仅依赖于时间间隔 kk,与具体时刻无关。

示例:若某股票日收益率满足弱平稳,则其今日与昨日收益率的协方差等于一周前某两天之间的协方差。

注意:方差稳定是协方差稳定的特例(k=0)

image.png


2. 强平稳(Strict Stationarity)的数学定义

强平稳性要求更严格,其定义为:
联合分布不变性:对于任意正整数 mm 和时间点 t1,t2,,tmt_1, t_2, \ldots, t_m,有
FXt1,Xt2,,Xtm(x1,x2,,xm)=FXt1+τ,Xt2+τ,,Xtm+τ(x1,x2,,xm)(τ)F_{X_{t_1}, X_{t_2}, \ldots, X_{t_m}}(x_1, x_2, \ldots, x_m) = F_{X_{t_1+\tau}, X_{t_2+\tau}, \ldots, X_{t_m+\tau}}(x_1, x_2, \ldots, x_m) \quad (\forall \tau)
即任意时间窗口的联合分布不随时间平移改变。

对比
• 弱平稳仅关注前两阶矩(均值和协方差),而强平稳要求所有统计性质(包括高阶矩)不变;
• 实际应用中,高斯过程的弱平稳等价于强平稳(因正态分布由均值和协方差唯一确定)。


3. 平稳性的实质意义:时间平移不变性假设

平稳性的核心价值在于其对“历史与未来统计一致性”的假设:
预测基础:若序列平稳,则其均值、方差等统计特征在时间轴上保持恒定,使得基于历史数据的模型可外推至未来预测。
非平稳序列的风险:非平稳序列(如存在趋势或季节性)的统计特性随时间变化,导致历史模型失效。例如,若股票价格存在趋势性上涨(非平稳),其历史均值和方差无法反映未来波动。

ARMA(Auto Regressive Moving Average)

1. 模型定义

ARMA(p, q)  是时间序列分析中的经典模型,结合了 ​自回归(AR)​ 和 ​移动平均(MA)​ 两种机制,用于对平稳时间序列进行建模和预测。

  • AR(p) :用过去 p 期的历史值预测当前值。
  • MA(q) :用过去 q 期的预测误差修正当前值。
2. 数学公式

ARMA(p, q)  的一般形式为:

image.png

注意,模型公式包含当前误差 ϵt​,但实际预测时无法使用它,需用估计值(0)替代。

3. 核心假设
  • 均值稳定性:假设时间序列的均值恒定,即长期趋势为零,序列围绕固定值波动,无趋势或季节性。

    • AR部分需满足平稳性
    • 长期均值稳定
  • 方差稳定性:假设序列波动幅度恒定,即方差 Var(yt​)=σ2 为常数,置信区间可靠。

    • AR部分需满足平稳性(防止方差发散)。
    • 误差项 ϵt​ 的方差固定。
  • 协方差稳定性:自相关性仅依赖时间间隔,参数估计准确。

ARIMA(Auto Regressive Integrated Moving Average):针对非平稳序列

差分处理

通过 ​差分(Differencing)​ 将非平稳序列转换为平稳序列,再应用ARMA模型。

  • 一阶差分​(消除线性趋势):
    ∇yt​=yt​−yt−1​
  • 二阶差分​(消除曲线趋势):
    ∇2yt​=∇yt​−∇yt−1​
  • 季节性差分​(消除周期性):
    yt​−yt−12​(月度数据示例)

示例:咖啡店销售额存在年度增长趋势,一阶差分后序列平稳。

预测与还原

ARIMA模型的预测分为两个阶段:

  1. 预测差分序列:对差分后的平稳序列(如 ∇yt​=yt​−yt−1​)进行预测。
  2. 逆差分还原:将差分预测值逐层还原为原始尺度(如咖啡店的实际销量)。

image.png

image.png

残差迭代

  • 初始值设定

image.png

  • 迭代优化参数

image.png