动手学深度学习8.1 序列模型简介

603 阅读2分钟

参与11月更文挑战的第24天,活动详情查看:2021最后一次更文挑战


序列这个词是由Sequence翻译而来的,什么是序列呢,就是我这一堆连续的数后者和前者是相关的。比如语音数据、文本数据、视频数据等一系列具有连续关系的数据。

再举个栗子,比如股票,我明天的股票价格肯定受今天和前几天股价的影响。用xix_i表示第i天的股价,如果你要预测第i天的股价,那你会总结出xtP(xtxt1,,x1).x_t \sim P(x_t \mid x_{t-1}, \ldots, x_1).

但是随着输入数据的增多,我们要计算的结果也会随着数据量的增加而变得更加难以计算,因此需要一个近似方法来使这个计算变得容易处理。

有两种思路:

1. 自回归模型 | 马尔可夫模型

只取长度为 τ\tau 的时间跨度即可。

思考一下股票价格,明天的股价可能和今天的股价有关,可能和昨天股价有关,可能和前天股价有关,但是和一年前股价就没什么太大关系了。所以预测股价的时候,我们不需要把去年的股价也列入影响范围之内。所以只需要向前去τ\tau天即可。

使用序列 xt1,,xtτx_{t-1}, \ldots, x_{t-\tau}进行训练,这种模型被称为 自回归模型(autoregressive models),因为它们就是对自身数据进行回归。

使用 xt1,,xtτx_{t-1}, \ldots, x_{t-\tau} 而不是 xt1,,x1x_{t-1}, \ldots, x_1 来估计 xtx_t。只要这种近似是精确的,我们就说序列满足 马尔可夫条件(Markov condition),又可以称之为马尔科夫模型。

2. 隐变量自回归模型

保留一些对过去观测的总结 hth_t,并且同时更新预测 x^t\hat{x}_t 和总结 hth_t。这就产生了基于 x^t=P(xtht)\hat{x}_t = P(x_t \mid h_{t}) 估计 xtx_t,以及公式 ht=g(ht1,xt1)h_t = g(h_{t-1}, x_{t-1}) 更新的模型。这种方式被称为被称为隐变量自回归模型(latent autoregressive models)。

image.png

  1. 本文是《动手学深度学习》的pytorch版读书笔记,该系列更多文章可以看这里:《动手学深度学习》专栏(juejin.cn)

  2. 笔记Github地址:DeepLearningNotes/d2l(github.com)

还在更新中…………