ARIMA模型如何分析时间序列数据?

760 阅读4分钟

快速浏览ARIMA模型的内容

如果你处理时间序列数据,那么你可能听说过ARIMA这个术语。自20世纪70年代以来,ARIMA模型一直被用于分析时间序列数据,它有充分的理由坚持下去;它简单而强大。在这篇博文中,我的目标是给你一个理解这个模型的坚实基础,希望能鼓励你用它来分析时间序列数据。

一般概念

ARIMA模型(Auto-Regressive Integrated Moving Average的首字母缩写),本质上创造了一个描述和预测你的时间序列数据的线性方程。这个方程是通过三个独立的部分产生的,可以描述为。

  • AR- 自动回归:根据过去的数据点创建方程条款
  • I--积分或差分:考虑数据中的整体 "趋势"
  • MA--移动平均:基于过去数据点的误差或噪音方程项

这三部分共同构成了AR-I-MA模型。

ARIMA的AR和MA方面实际上来自独立的模型,可以描述更简化的时间序列数据的趋势。有了ARIMA模型,你基本上有能力使用这两个模型的组合以及差分("I"),以便进行简单或复杂的时间序列分析。很酷,对吗?

该模型的注意事项

在深入研究之前,我确实想指出,ARIMA模型是在一些假设条件下运作的。为了有效地使用ARIMA模型,你将想问自己关于你想分析的时间序列数据的这些问题。

  • 是否有已知的季节性(周期性趋势)?
  • 是否有大量的离群值或零星的数据点?
  • 数据关于平均值的变化是否不一致?

如果你对这些问题的回答是否定的,那么ARIMA模型就适合你否则,你可能要寻找一个不同的时间序列模型。

了解细节

ARIMA模型几乎总是表示为ARIMA(p, d, q),其中每个字母都对应着上述三个部分中的一个。这三个字母代表你必须提供的参数,其描述如下。

  • p决定了自回归(AR)项的数量
  • d决定了差分的顺序
  • q决定了移动平均数(MA)项的数量。

虽然我喜欢这些参数背后的数学,但我将避免在这篇文章中解释它。如果你对这些方程的具体工作方式感兴趣,我强烈建议你查看我在最后发布的资源。现在,我只想让你对这三个参数有一个大致的了解。

整合

让我们首先看一下我们的ARIMA模型的 "I "部分。该模型的这一部分说明了整个时间序列数据中出现的一般趋势。d值指的是你需要对你的时间序列趋势进行多少次导数才能得到一条平线(或常数)。

例如,下图显示了从1990年到2015年4月的陆地平均温度的实际数据。注意线性趋势。

Graph showing time on the x-axis and average temperature on the y-axis. The data displayed is the average land temperature in April over the last 25 years. The data shows an increasing trend in temperatures over time.

如果我们用ARIMA模型来分析这个数据,我们可能会使用d=1来说明其线性趋势。如果趋势是二次的,我们可能要使用d=2。

自回归和移动平均部分

ARIMA模型在本质上是递归的,因此依赖于过去的计算结果。这种递归性直接来自于加入到模型中的AR和MA方程条款。

p值,或AR部分,本质上描述了你的数据点对过去数据点的依赖程度。如果p=1,那么模型在某一特定时间的输出直接依赖于之前的输出。如果p=2,那么输出将依赖于过去两个时间段的输出。

同样,q值,或MA部分,使用了同样的递归概念。不同的是,q描述了你当前的输出与它过去的误差或噪音计算的关联程度。因此,如果q=1,那么你当前的输出将依赖于过去时间段的噪声计算。对于q=2,你的输出将依赖于过去两个时间段的噪声。

总结

现在我们对ARIMA模型和它的参数有了大致的了解,我们可以实际看看如何使用该模型进行分析。找出正确的p、d和q值可能是一个挑战,但拥有正确的工具,如ACF和PACF,可以帮助我们。在另一篇文章中,我将通过一个完整的例子来说明如何使用这些工具来分析时间序列数据,并展示如何一起找到p、d和q值。直到下一次!