时间序列与R语言应用(part1)--时间序列基本概念

178 阅读6分钟

学习笔记 参考书目:《计量经济学》、《计量经济学模型及R语言应用》、《时间序列分析及应用R语言》


时间序列分析之基本概念

时间序列的含义

从统计上来说,时间序列就是将某一个指标在不同时间上的不同数值,按照时间的先后顺序排列而成的序列。

从数学意义上讲,设X(t)(tT)X(t)(t\in T)是一个随机过程,Xi(i=1,2,...,n)X_{i}(i=1,2,...,n)是在时刻ii对过程X(t)X(t)的观测值,则Xi(i=1,2,...,n)X_{i}(i=1,2,...,n)称为一次样本实现,也就是一个时间序列。

从系统意义上来说,时间序列就是某一系统在不同时间(地点、条件等)的响应。这个定义不仅指出时间序列是按照一定顺序排列而成的,而且这里的一定顺序不一定是指时间顺序,也可以是具有各种不同意义的物理量。

时间序列的分类

  • 按研究对象的多少分类:单变量时间序列和多变量时间序列。

多变量时间序列不仅描述了各个变量的变化规律,而且揭示了各变量间的相互依存关系的动态规律性。

  • 按时间的连续性分类:离散时间序列和连续时间序列

  • 按序列的统计特性分类:平稳时间序列和非平稳时间序列

随机过程是否具有平稳性对于时间序列预测十分重要,这一性质保证了随机过程的结构不会随着时间变化,这是准确预测的必要条件。

  • 按时间序列的分布规律分类:高斯时间序列和非高斯时间序列

服从高斯分布的时间序列叫高斯时间序列,否则为非高斯时间序列。对于某些非高斯时间序列,往往可以经过适当变换,近似看成高斯时间序列。

平稳和非平稳

  • 平稳随机过程

假设某一时间序列是由某个随机过程生成的,即假定时间序列Xt(t=1,2,...,n)X_{t}(t=1,2,...,n)的每个数值都是从一个概率分布中随机得到的,如果XtX_{t}满足下列条件:

①均值E(Xt)=μE(X_{t})=\mu,均值是与时间tt无关的常数

②方差Var(Xt)=σ2Var(X_{t})=\sigma^2,方差是与时间tt无关的常数

③协方差Cov(Xt,Xt+k)=γkCov(X_{t},X_{t+k})=\gamma_k,协方差只与时间间隔kk有关.

则称该随机时间序列是款平稳的,该随机过程是一个平稳随机过程。

  • 白噪声

举个平稳时间序列的例子:白噪声

最简单的随机时间序列XtX_{t}是一个具有零均值同方差的独立分布序列:

Xt=μt,μtN(0,σ2)X_{t}=\mu_{t}, \quad \mu_{t} \sim N(0, \sigma^2)

则该序列常被称为是一个白噪声。

  • 随机游走

举一个非平稳时间序列的例子:随机游走

有如下随机过程生成:

Xt=Xt1+μtX_{t}=X_{t-1}+\mu_{t}

这里μt\mu_t是一个白噪声。

容易知道,该序列有相同的均值E(Xt)=E(Xt1)E(X_{t})=E(X_{t-1}).为了检验该序列是否具有相同的方差,可假设XtX_{t}的初值为X0X_{0},则易知:

X1=X0+μ1X2=X1+μ2=X0+μ1+μ2Xt=X0+μ1+μ2+...+μtX_{1}=X_{0}+\mu_{1} \\X_{2}=X_{1}+\mu_{2} = X_{0}+\mu_{1}+\mu_{2} \\X_{t}=X_{0}+\mu_{1}+\mu_{2}+...+\mu_{t}

设初值X0X_{0}为常数,μt\mu_{t}是白噪声,则Var(Xt)=tσ2Var(X_{t})=t\sigma^2,即XtX_{t}的方差与时间tt有关而非常数,故他是非平稳时间序列。

  • 图示

给出一个随机时间序列,首先可通过该序列的时序图来粗略地判断它是否是平稳的。平稳时间序列在图形上往往表现出种围绕其均值不断波动的过程,而非平稳时间序列往往表现出在不同的时间段具有不同的均值(如持续上升或持续下降)

时间序列的自相关性

自相关函数ACF

自相关函数是衡量序列yty_t中任意两个元素之间相关程度的度量。对于随机过程{yty_t},元素yty_tyt+ky_{t+k}之间的自相关函数定义如下:

ρk=cov(yt,yt+k)var(yt)var(yt+k)\rho_k=\frac{cov(y_t,y_{t+k})}{\sqrt{var(y_t)var(y_{t+k})}}

自相关系数ρk\rho_k的序列{ρk\rho_k}(k=0,±1,±2,...k=0,\pm1, \pm2, ...),称为自相关函数(ACF)

yty_t为平稳随机过程时:

ρk=γkγ0=cov(yt,yt+k)var(yt)\rho_k=\frac{\gamma_k}{\gamma_0}=\frac{cov(y_t,y_{t+k})}{var(y_t)}

由定义知,对任意随机过程ρ0=1\rho_0=1,由公式可知,ρk\rho_k是一个无量纲量。γk\gamma_k是时间序列滞后kk期的协方差,γ0\gamma_0为方差,因此自相关函数是关于滞后期kk的递减函数。

在实际计算中,我们只能计算样本自相关函数,其样本自相关函数定义为:

ρk^=i=1nk(yty)(yy+ky)i=1n(yty)2k=1,2,3...\hat{\rho_k}=\frac{\sum_{i=1}^{n-k}(y_t- {\overline{y}})(y_{y+k}- {\overline{y}}) }{\sum_{i=1}^{n}(y_t - {\overline{y}})^2}\quad k=1,2,3...
  • 图示

随着kk的增加,样本自相关函数下降且趋于0.但从下降速度来看,平稳序列要比非平稳序列快得多。

自相关性判别

  • 图示法

时间序列模型着重研究的是样本关系,因此自相关函数在样本中占有重要地位。

我们可以绘制滞后q期(YtqY_{t-q})与当期(YtY_{t})的散点图,来判断是否存在自相关性。

也可以绘制acf图来判断时间序列数据的自相关性情况。值得注意的是,若存在yty_tyt+ky_{t+k}之间的样本自相关函数ρk^\hat{\rho_k},满足|ρk^\hat{\rho_k}|<1.96n\frac{1.96}{\sqrt{n}},我们就有95%的把握判断原时间序列不存在k阶自相关。阈值1.96n\frac{1.96}{\sqrt{n}},在acf图中应该会以虚线标出。

  • 假设检验

①Box-Pierce检验

伯克斯和皮尔斯提出的Q统计量,可以检验时间序列的相关性,Q统计量定义为:

Q=nk=1mρk^2χ2(m)Q=n{\sum_{k=1}^{m}\hat{\rho_k}^2}\sim\chi^2(m)

其中,样本量为你,m为滞后长度。在大样本情况下,它近似服从自由度为m的χ2\chi^2分布。若计算出的Q值大于一定显著性水平下χ2\chi^2分布的临界值,则拒绝所有ρk\rho_k同时为0的原假设,则序列存在自相关性。

②Ljung-Box检验

巴特雷特曾证明,如果时间序列由白噪声过程生成,则对所有的k>0k>0,样本自相关系数近似地服从均值为0、方差为1/n的正态分布,其中n为样本量。也可检验对所有的k>0k>0,自相关系数都为0的联合假设,这可通过如下QLBQ_{LB}统计量进行:

QLB=n(n+2)k=1mρk^2nkχ2(m)Q_{LB}=n(n+2)\sum_{k=1}^{m}\frac{\hat{\rho_k}^2}{n-k}\sim\chi^2(m)

该统计量近似地服从自由度为m的χ2\chi^2分布.因此,如果计算的Q值大于显著性水平α\alpha的临界值,则有1α1-\alpha的把握拒绝所有ρk(k>0)\rho_k(k>0)同时为0的假设。

QLBQ_{LB}统计量比Q统计量有更好的小样本性(也就是在统计意义上更有效),所以QLBQ_{LB}统计量常用来检验小样本的序列相关性。

R语言实现

绘制滞后一期与当期散点图:

library(TSA)

y <- c(55,52,42,32,37,36,57,66,66,62,45,77,78,60,65)

plot(y, x = zlag(y, 1), xlab = expression(Y[t-1]), 
     ylab = expression(Y[t]), type = 'p', main = '滞后一期与当期的散点图')

图像:

由上图可以看出yty_tyt1y_{t-1}貌似有那么点相关性。

绘制acf图:

acf(y, main = '自相关图')

图像:

可以看到一阶自相关系数显著,则可能存在一阶自相关性。

计算自相关系数:

acf(y)$ac

控制台输出:

             [,1]
 [1,]  0.56735082
 [2,]  0.25659445
 [3,]  0.11299886
 [4,] -0.04724439
 [5,]  0.02717598
 [6,] -0.12748005
 [7,] -0.20916002
 [8,] -0.30212847
 [9,] -0.36191562
[10,] -0.22478145
[11,] -0.12675789

Ljung-Box检验:

Box.test(y, type = 'Ljung-Box')

控制台输出:

	Box-Ljung test

data:  y
X-squared = 5.8629, df = 1, p-value = 0.01546

可以看到p值小于0.05的显著性水平,则拒绝原假设,序列存在自相关性。