时间序列与R语言应用(part1)--时间序列基本概念从统计上来说，时间序列就是将某一个指标在不同时间上的不同数值，按照

学习笔记参考书目：《计量经济学》、《计量经济学模型及R语言应用》、《时间序列分析及应用R语言》

时间序列分析之基本概念

时间序列的含义

从统计上来说，时间序列就是将某一个指标在不同时间上的不同数值，按照时间的先后顺序排列而成的序列。

从数学意义上讲，设 $X(t)(t\in T)$ 是一个随机过程， $X_{i}(i=1,2,...,n)$ 是在时刻 $i$ 对过程 $X(t)$ 的观测值，则 $X_{i}(i=1,2,...,n)$ 称为一次样本实现，也就是一个时间序列。

从系统意义上来说，时间序列就是某一系统在不同时间(地点、条件等)的响应。这个定义不仅指出时间序列是按照一定顺序排列而成的，而且这里的一定顺序不一定是指时间顺序，也可以是具有各种不同意义的物理量。

时间序列的分类

按研究对象的多少分类：单变量时间序列和多变量时间序列。

多变量时间序列不仅描述了各个变量的变化规律，而且揭示了各变量间的相互依存关系的动态规律性。

按时间的连续性分类：离散时间序列和连续时间序列
按序列的统计特性分类：平稳时间序列和非平稳时间序列

随机过程是否具有平稳性对于时间序列预测十分重要，这一性质保证了随机过程的结构不会随着时间变化，这是准确预测的必要条件。

按时间序列的分布规律分类：高斯时间序列和非高斯时间序列

服从高斯分布的时间序列叫高斯时间序列，否则为非高斯时间序列。对于某些非高斯时间序列，往往可以经过适当变换，近似看成高斯时间序列。

平稳和非平稳

平稳随机过程

假设某一时间序列是由某个随机过程生成的，即假定时间序列 $X_{t}(t=1,2,...,n)$ 的每个数值都是从一个概率分布中随机得到的，如果 $X_{t}$ 满足下列条件：

①均值 $E(X_{t})=\mu$ ,均值是与时间 $t$ 无关的常数

②方差 $Var(X_{t})=\sigma^2$ ,方差是与时间 $t$ 无关的常数

③协方差 $Cov(X_{t},X_{t+k})=\gamma_k$ ,协方差只与时间间隔 $k$ 有关.

则称该随机时间序列是款平稳的，该随机过程是一个平稳随机过程。

白噪声

举个平稳时间序列的例子：白噪声

最简单的随机时间序列 $X_{t}$ 是一个具有零均值同方差的独立分布序列：

X_{t}=\mu_{t}, \quad \mu_{t} \sim N(0, \sigma^2)

则该序列常被称为是一个白噪声。

随机游走

举一个非平稳时间序列的例子：随机游走

有如下随机过程生成：

X_{t}=X_{t-1}+\mu_{t}

这里 $\mu_t$ 是一个白噪声。

容易知道，该序列有相同的均值 $E(X_{t})=E(X_{t-1})$ .为了检验该序列是否具有相同的方差，可假设 $X_{t}$ 的初值为 $X_{0}$ ，则易知：

X_{1}=X_{0}+\mu_{1} \\X_{2}=X_{1}+\mu_{2} = X_{0}+\mu_{1}+\mu_{2} \\X_{t}=X_{0}+\mu_{1}+\mu_{2}+...+\mu_{t}

设初值 $X_{0}$ 为常数， $\mu_{t}$ 是白噪声，则 $Var(X_{t})=t\sigma^2$ ,即 $X_{t}$ 的方差与时间 $t$ 有关而非常数，故他是非平稳时间序列。

图示

给出一个随机时间序列，首先可通过该序列的时序图来粗略地判断它是否是平稳的。平稳时间序列在图形上往往表现出种围绕其均值不断波动的过程，而非平稳时间序列往往表现出在不同的时间段具有不同的均值(如持续上升或持续下降)

时间序列的自相关性

自相关函数ACF

自相关函数是衡量序列 $y_t$ 中任意两个元素之间相关程度的度量。对于随机过程{ $y_t$ },元素 $y_t$ 与 $y_{t+k}$ 之间的自相关函数定义如下：

\rho_k=\frac{cov(y_t,y_{t+k})}{\sqrt{var(y_t)var(y_{t+k})}}

自相关系数 $\rho_k$ 的序列{ $\rho_k$ }( $k=0,\pm1, \pm2, ...$ ),称为自相关函数(ACF)

当 $y_t$ 为平稳随机过程时：

\rho_k=\frac{\gamma_k}{\gamma_0}=\frac{cov(y_t,y_{t+k})}{var(y_t)}

由定义知，对任意随机过程 $\rho_0=1$ ,由公式可知， $\rho_k$ 是一个无量纲量。 $\gamma_k$ 是时间序列滞后 $k$ 期的协方差， $\gamma_0$ 为方差，因此自相关函数是关于滞后期 $k$ 的递减函数。

在实际计算中，我们只能计算样本自相关函数，其样本自相关函数定义为：

\hat{\rho_k}=\frac{\sum_{i=1}^{n-k}(y_t- {\overline{y}})(y_{y+k}- {\overline{y}}) }{\sum_{i=1}^{n}(y_t - {\overline{y}})^2}\quad k=1,2,3...

图示

随着 $k$ 的增加，样本自相关函数下降且趋于0.但从下降速度来看，平稳序列要比非平稳序列快得多。

自相关性判别

图示法

时间序列模型着重研究的是样本关系，因此自相关函数在样本中占有重要地位。

我们可以绘制滞后q期( $Y_{t-q}$ )与当期( $Y_{t}$ )的散点图，来判断是否存在自相关性。

也可以绘制acf图来判断时间序列数据的自相关性情况。值得注意的是，若存在 $y_t$ 与 $y_{t+k}$ 之间的样本自相关函数 $\hat{\rho_k}$ ,满足| $\hat{\rho_k}$ |< $\frac{1.96}{\sqrt{n}}$ ,我们就有95%的把握判断原时间序列不存在k阶自相关。阈值 $\frac{1.96}{\sqrt{n}}$ ，在acf图中应该会以虚线标出。

假设检验

①Box-Pierce检验

伯克斯和皮尔斯提出的Q统计量，可以检验时间序列的相关性，Q统计量定义为：

Q=n{\sum_{k=1}^{m}\hat{\rho_k}^2}\sim\chi^2(m)

其中，样本量为你，m为滞后长度。在大样本情况下，它近似服从自由度为m的 $\chi^2$ 分布。若计算出的Q值大于一定显著性水平下 $\chi^2$ 分布的临界值，则拒绝所有 $\rho_k$ 同时为0的原假设，则序列存在自相关性。

②Ljung-Box检验

巴特雷特曾证明，如果时间序列由白噪声过程生成，则对所有的 $k>0$ ,样本自相关系数近似地服从均值为0、方差为1/n的正态分布，其中n为样本量。也可检验对所有的 $k>0$ ，自相关系数都为0的联合假设，这可通过如下 $Q_{LB}$ 统计量进行：

Q_{LB}=n(n+2)\sum_{k=1}^{m}\frac{\hat{\rho_k}^2}{n-k}\sim\chi^2(m)

该统计量近似地服从自由度为m的 $\chi^2$ 分布.因此，如果计算的Q值大于显著性水平 $\alpha$ 的临界值，则有 $1-\alpha$ 的把握拒绝所有 $\rho_k(k>0)$ 同时为0的假设。

$Q_{LB}$ 统计量比Q统计量有更好的小样本性(也就是在统计意义上更有效)，所以 $Q_{LB}$ 统计量常用来检验小样本的序列相关性。

R语言实现

绘制滞后一期与当期散点图：

library(TSA)

y <- c(55,52,42,32,37,36,57,66,66,62,45,77,78,60,65)

plot(y, x = zlag(y, 1), xlab = expression(Y[t-1]), 
     ylab = expression(Y[t]), type = 'p', main = '滞后一期与当期的散点图')

图像：

由上图可以看出 $y_t$ 与 $y_{t-1}$ 貌似有那么点相关性。

绘制acf图：

acf(y, main = '自相关图')

图像：

可以看到一阶自相关系数显著，则可能存在一阶自相关性。

计算自相关系数：

acf(y)$ac

控制台输出：

             [,1]
 [1,]  0.56735082
 [2,]  0.25659445
 [3,]  0.11299886
 [4,] -0.04724439
 [5,]  0.02717598
 [6,] -0.12748005
 [7,] -0.20916002
 [8,] -0.30212847
 [9,] -0.36191562
[10,] -0.22478145
[11,] -0.12675789

Ljung-Box检验：

Box.test(y, type = 'Ljung-Box')

控制台输出：

	Box-Ljung test

data:  y
X-squared = 5.8629, df = 1, p-value = 0.01546

可以看到p值小于0.05的显著性水平，则拒绝原假设，序列存在自相关性。