TSN网络翻译

1,162 阅读29分钟

Abstract

深卷积网络在静止图像的视觉识别方面取得了巨大的成功。然而,对于视频中的动作识别,相对于传统方法的优势并不明显。本文的目的是发现设计有效的视频动作识别转换网结构的原则,并在有限的训练样本中学习这些模型。我们的第一个贡献是时间段网络(TSN),这是一种新的基于视频的动作识别框架。它是基于远程时间结构建模的思想。它结合了稀疏的时间采样策略和视频级监控,能够使用整个动作视频进行高效和有效的学习。另一个贡献是我们研究了利用时间段网络学习视频数据上的ConvNets的一系列好的实践。我们的方法在HMDB51(69.4%)和UCF101(94.2%)的数据集上获得了最好的性能。我们还将学习到的ConvNet模型可视化,定性地证明了时间段网络和所提出的良好实践的有效性。

introduction

基于视频的动作识别由于其在安全和行为分析等领域的应用,引起了学术界的广泛关注[1,2,3,4,5,6]。在动作识别中,有两个关键和相辅相成的方面:表象和动态。识别系统的性能在很大程度上取决于它是否能够从中提取和利用相关信息。然而,由于比例变化、视点变化和相机运动等许多复杂性,提取这样的信息并不是一件容易的事情。因此,设计有效的表示来应对这些挑战,同时保持动作类的分类信息就变得至关重要了。最近,卷积网络(ConvNets)[7]在物体、场景和复杂事件的图像分类方面取得了巨大的成功[8,9,10,11]。还引入了转换网来解决基于视频的动作识别问题[12,1,13,14]。深度凸网具有很强的建模能力,能够借助大规模的监督数据集从原始视觉数据中学习区分表示。然而,与图像分类不同,端到端深度凸网仍然无法在基于视频的动作识别中获得相对于传统手工特征的显著优势。 在我们看来,ConvNets在基于视频的动作识别中的应用受到两大障碍的阻碍。首先,长程时间结构在理解动作视频的动态过程中起着重要作用[15,16,17,18]。然而,主流的ConvNet框架[1,13]通常只关注外观和短期运动,因此缺乏纳入长期时间结构的能力。最近有几次尝试[19,4,20]来处理这个问题。这些方法大多依赖于具有预先定义的采样间隔的密集时间采样。当应用于长视频序列时,这种方法会产生过高的计算代价,这限制了其在现实世界中的应用,并且存在丢失超过最大序列长度的视频的重要信息的风险。其次,在实践中,训练深度卷积网络需要大量的训练样本才能达到最优性能。然而,由于数据收集和注释的困难,公开可用的动作识别数据集(例如UCF101[21]、HMDB51[22])在大小和多样性方面仍然有限。因此,在图像分类中取得显著成功的同时Convnet[9,23]面临着很高的过拟合风险。 这些挑战促使我们研究两个问题:1)如何设计一个有效和高效的视频级框架来学习视频表示,并且能够捕获长范围的时间结构;2)如何在有限的训练样本下学习ConvNet模型。特别是,我们将我们的方法构建在成功的两流体系结构[1]之上,同时解决了上面提到的问题。在时间结构建模方面,一个关键的观察是连续的帧是高度冗余的。因此,通常导致高度相似的采样帧的密集时间采样是不必要的。相反,在这种情况下,稀疏时间采样策略将更有利。受此启发,我们开发了一个视频级的框架,称为时间分段网络(TSN)。该框架使用稀疏采样方案从长视频序列中提取短片段,其中样本沿时间维度均匀分布。在其上,采用分段结构来聚集来自采样摘录的信息。从这个意义上说,时间段网络能够对整个视频的远程时间结构进行建模。此外,这种稀疏采样策略以极低的代价保存了相关信息,从而在合理的时间和计算资源预算下实现了对长视频序列的端到端学习。(意思就是根据一定的时间片段采集样本,节省计算资源) 为了充分释放时间段网络框架的潜力,我们采用了最近推出的非常深入的ConvNet体系结构[23,9],并探索了一些良好的实践来克服由于训练样本数量有限而造成的上述困难,包括1)跨通道预训练;2)正则化;3)增强数据增强。同时,为了充分利用视频中的视觉内容,我们对两流ConvNet的四种输入模式进行了实证研究,即单RGB图像、堆叠RGB差分、堆叠光流场和堆叠翘曲光流场。 我们在两个具有挑战性的动作识别数据集UCF101[21]和HMDB51[22]上进行了实验,以验证该方法的有效性。在实验中,使用时间段网络学习的模型在这两个具有挑战性的动作识别数据集上的性能显著优于最新技术。我们还可视化了我们学习的双流模型,试图为未来的动作识别研究提供一些见解。

Related Works

动作识别在过去几年中得到了广泛的研究[2,24,25,26,18]。以前与我们相关的工作分为两类:(1)用于动作识别的卷积网络,(2)时间结构建模。 用于动作识别的卷积网络。有几项工作一直在尝试设计有效的ConvNet体系结构来识别视频中的动作[12,1,13,27,28]。Karparis等人的研究。[12]在大型数据集(Sports-1M)上测试了具有深层结构的ConvNets。Simonyan等人。[1]通过利用ImageNet数据集进行预训练,通过计算光流来显式捕捉运动信息,设计了包含空间和时间网络的双流ConvNet。Tran等人。[13]在真实和大规模的视频数据集上探索了3D ConvNet[27],他们试图通过3D卷积运算来学习外观和运动特征。Sun等人。[28]提出了一种分解时空卷积网的方法,并利用不同的方法对三维卷积核进行分解。最近,一些工作集中于使用ConvNets[4,19,20]来建模远程时间结构。然而,这些方法直接对较长的连续视频流进行操作。受计算成本的限制,这些方法通常处理固定长度的序列,范围从64到120帧。对于这些方法来说,由于其有限的时间覆盖范围,从整个视频中学习并不是一件容易的事情。我们的方法与这些端到端的深度卷积网络的不同之处在于它新颖地采用了稀疏时间采样策略,使得能够在不受序列长度限制的情况下利用整个视频进行高效的学习。 时间结构建模。 许多研究工作致力于为动作识别的时间结构建模 [15,16,17,29,30,18]盖顿等人 [16] 注释了每个视频的每个原子动作,并提出了用于动作检测的 Actom 序列模型(ASM)。 Niebles 等人[15] 提出使用潜在变量对复杂动作的时间分解进行建模,并采用 Latent SVM [31] 以迭代方法学习模型参数。 王等[17] 和 Pirsiavash 等人 [29] 分别使用潜在层次模型 (LHM) 和分段语法模型 (SGM) 将复杂动作的时间分解扩展为层次化方式。 Wang [30] 设计了一个顺序骨架模型 (SSM) 来捕获动态 posetlet 之间的关系,并执行时空动作检测。 Fernando [18] 模拟了用于动作识别的 BoVW 表示的时间演化。 然而,这些方法仍然无法组装端到端的学习方案来对时间结构进行建模。 所提出的时间段网络在强调这一原则的同时,是第一个对整个视频进行端到端时间结构建模的框架。

Action Recognition with Temporal Segment Networks

在这一部分中,我们给出了使用时间段网络进行动作识别的详细描述。具体地说,我们首先介绍了时间段网络框架中的基本概念。然后,我们研究了在时间段网络框架内学习双流ConvNet的良好实践。最后,我们描述了学习到的双流ConvNet的测试细节。

Temporal Segment Networks

正如我们在SEC中所讨论的。1、现有形式的双流ConvNet的一个明显问题是不能对远程时间结构进行建模。这主要是因为它们对时间上下文的访问受到限制,因为它们被设计为仅在单个帧(空间网络)或短片段中的单个帧堆栈(时间网络)上操作。然而,复杂的动作,如体育动作,包括跨越相对较长时间的多个阶段。如果不能将这些动作中的远程时间结构应用到ConvNet训练中,那将是相当大的损失。为了解决这个问题,我们提出了时间段网络,这是一个如图1所示的视频级框架,能够在整个视频中对动态进行建模。 image.png 具体来说,我们提出的时间段网络框架也由空间流网和时间流网组成,旨在利用整个视频的视觉信息来执行视频级预测。时间段网络不是在单个帧或帧堆栈上工作,而是在从整个视频中稀疏采样的一系列短片段上操作。该序列中的每个代码片断都将生成其自己的操作类的初步预测。然后,将推导出片段之间的共识作为视频级预测。在学习过程中,通过迭代更新模型参数来优化视频级别预测的损失值,而不是两个流ConvNet中使用的摘录级别预测的损失值。 形式上,给定一个视频V,我们将其分成K个时长相等的段{S1,S2,···,SK}。然后,时间段网络对摘录序列建模如下: image.png 这里(t1,t2,···,tk)是一个片段序列。从其对应的片段Sk中随机采样每个摘录Tk。F(Tk;W)是表示具有参数W的ConvNet的函数,该参数对短片段Tk进行操作并产生所有类的类分数。分段一致性函数G组合来自多个短片段的输出,以获得它们之间的类别假设的一致性。基于该共识,预测函数H预测整个视频的每个动作类的概率。这里我们选择广泛使用的Softmax函数用于H。结合标准的分类交叉熵损失,关于分段一致性G=G(F(T1;W),F(T2;W),···,F(Tk;W))的最终损失函数形成如下: image.png 其中 C 是动作类别的数量,yi 是关于类别 i 的真实标签。 在实验中,根据之前关于时间建模的工作 [16,17],片段的数量 K 设置为 3。 共识函数 G 的形式仍然是一个悬而未决的问题。 在这项工作中,我们使用 G 的最简单形式,其中 Gi = g(Fi(T1), . . ., Fi(TK))。 这里使用聚合函数 g 从同一类在所有片段上的分数推断出类分数 Gi。 我们根据经验评估了聚合函数 g 的几种不同形式,包括我们实验中的均匀平均、最大值和加权平均。 其中,均匀平均用于报告我们最终的识别精度。 这个时间段网络是可微的,或者至少具有次梯度,这取决于g的选择。这允许我们利用多个片段来联合优化具有标准反向传播算法的模型参数W。在反向传播过程中,模型参数W相对于损耗值L的梯度可以导出为: image.png 其中K是时间段网络使用的段数。 当我们使用基于梯度的优化方法,如随机梯度下降(SGD)来学习模型参数时,方程3保证参数更新利用从所有摘录级别预测得到的分段一致性G。通过这种方式进行优化,时间段网络可以从整个视频而不是一小段视频中学习模型参数。同时,通过固定所有视频的K,我们组装了一种稀疏时间采样策略,其中采样的片段只包含一小部分帧。与以往使用密集采样帧[4,19,20]的工作相比,该算法大大降低了在帧上评估ConvNet的计算代价。

Learning Temporal Segment Networks

时间段网络为进行视频级学习提供了一个坚实的框架,但为了获得最优性能,必须考虑一些实际问题,例如训练样本的数量有限。为此,我们研究了一系列在视频数据上训练深度凸网的良好实践,这些实践也直接适用于学习时间段网络。 网络架构。网络结构是神经网络设计中的一个重要因素。一些工作已经表明,更深的结构可以提高对象识别性能[9,10]。然而,最初的双流ConvNet[1]采用了相对较浅的网络结构(ClarifaiNet[32])。在这项工作中,我们选择了带批处理规范化的初始程序(BN-Inception)[23]作为构建块,因为它在精度和效率之间取得了很好的平衡。我们将原有的BN-先启体系结构应用到双流ConvNet的设计中。与原始的双流ConvNet[1]一样,空间流ConvNet在单个RGB图像上操作,而时间流ConvNet以一堆连续的光流场作为输入。 网络输入。我们还有兴趣探索更多的输入模式,以增强时间段网络的区分能力。最初,双流ConvNet对空间流使用RGB图像,对时间流使用堆叠的光流场。在这里,我们建议研究两种额外的模式,即RGB差分和warped optical flow fields。 单个RGB图像通常对特定时间点的静态外观进行编码,并且缺少有关前一帧和下一帧的上下文信息。如图2所示,两个连续帧之间的RGB差异描述了外观变化,这可能对应于运动显著区域。在文[28]的启发下,我们将叠加的RGB差作为另一种输入方式进行实验,并考察其在动作识别中的性能。 image.png 时间流ConvNets以光流场为输入,旨在捕捉运动信息。然而,在逼真的视频中,通常存在摄像机运动,光流场可能不会集中在人的动作上。如图2所示,由于相机的运动,背景中会突出显示大量的水平移动。受改进的密集轨迹[2]工作的启发,我们建议将翘曲光流场作为额外的输入形式。在文献[2]的基础上,我们首先估计单应矩阵,然后对摄像机运动进行补偿,从而提取出扭曲的光流。如图2所示,扭曲的光流抑制了背景运动,并使运动集中在演员身上。 网络训练。由于用于动作识别的数据集相对较小,训练深度ConvNet面临着过度拟合的风险。为了缓解这一问题,我们设计了几种策略来训练时间段网络中的ConvNet,如下所示。 跨通道预训。当目标数据集没有足够的训练样本时,预训练已被证明是初始化深度凸网的一种有效方法[1]。由于空间网络采用RGB图像作为输入,因此利用在ImageNet[33]上训练的模型作为初始化是很自然的。对于其他模式,如光流场和RGB差分,它们本质上捕捉到了视频数据的不同视觉方面,其分布与RGB图像不同。我们提出了一种跨通道预训练技术,其中我们利用RGB模型来初始化时间网络。首先,我们通过线性变换将光流场离散到0到255之间。这一步骤使得光流场的范围与RGB图像相同。然后,我们修改了RGB模型第一卷积层的权值来处理光流场的输入。具体地说,我们对RGB通道上的权重进行平均,并通过时间网络输入的通道数来复制该平均值。这种初始化方法对时态网络效果很好,减少了实验中过拟合的影响。(这里建议看下代码如何进行的操作) 正则化技术。 Batch Normalization [23] 是处理协变量偏移问题的重要组成部分。 在学习过程中,batch normalization 会估计每个 batch 内的激活均值和方差,并使用它们将这些激活值转换为标准的高斯分布。 这种操作加速了训练的收敛,但由于有限数量的训练样本对激活分布的估计存在偏差,因此也会导致传输过程中的过度拟合。 因此,在使用预训练模型初始化后,我们选择冻结除第一个之外的所有批归一化层的均值和方差参数。 由于光流的分布与RGB图像不同,第一个卷积层的激活值会有不同的分布,我们需要相应地重新估计均值和方差。 我们称这种策略为部分 BN。 同时,我们在 BN-Inception 架构中的全局池化层之后添加了一个额外的 dropout 层,以进一步减少过拟合的影响。 空间流 ConvNet 的丢失率设置为 0.8,时间流 ConvNet 设置为 0.7。 数据增强。数据增强可以生成不同的训练样本,并防止严重的过拟合。在原有的双流ConvNet中,采用了随机裁剪和水平翻转的方法来增加训练样本。我们开发了两种新的数据增强技术:角点裁剪和尺度抖动。在角点裁剪技术中,提取的区域仅从图像的角点或中心选择,以避免隐含地聚焦于图像的中心区域。在多尺度裁剪技术中,我们采用了ImageNet分类中使用的尺度抖动技术[9]来进行动作识别。我们提出了一种有效的尺度抖动实现方法。我们将输入图像或光流场的大小固定为256×340,裁剪区域的宽度和高度从{256,224,192,168}中随机选择。最后,将这些裁剪区域的大小调整为224×224用于网络训练。事实上,这种实现不仅包含比例抖动,还涉及纵横比抖动。

Testing Temporal Segment Networks

最后,给出了我们对时间段网络的测试方法。由于所有的代码片级ConvNet在时间段网络中共享模型参数,因此学习的模型可以像普通ConvNet一样执行帧方式的评估。这使我们能够与没有时间段网络框架的学习的模型进行公平的比较。具体来说,我们遵循了原始的双流ConvNet[1]的测试方案,其中我们从动作视频中采样了25个RGB帧或光流堆栈。同时,我们从采样帧中裁剪4个角点和1个中心,以及它们的水平翻转来评估ConvNet。对于空间和时间流网络的融合,我们对它们进行加权平均。当在时间段网络框架内学习时,空间流网和时间流网之间的性能差距比原来的两流网小得多。基于这一事实,我们将空间流的权重设置为1,将时间流的权重设置为1.5,从而给空间流更多的权重。当同时使用正常光流场和翘曲光流场时,时间流的权重被分为1(光流)和0.5(翘曲光流)。它在SEC中进行了描述。3.1在Softmax归一化之前应用分段一致性函数。为了测试模型与训练模型的一致性,我们在Softmax归一化之前融合了25帧和不同码流的预测分数。

Experiments

在本节中,我们首先介绍我们的方法的评估数据集和实现细节。然后,我们探讨了提出的学习时间段网络的良好实践。在此之后,我们通过应用时间段网络框架论证了建立长期时间结构模型的重要性。我们还将我们的方法的性能与最先进的技术进行了比较。最后,我们将学习到的ConvNet模型可视化。

Datasets and Implementation Details

我们对两个大型动作数据集进行实验,即 HMDB51 [22] 和 UCF101 [21]。 UCF101 数据集包含 101 个动作类和 13、320 个视频剪辑。 我们遵循 THUMOS13 挑战赛的评估方案 [34]并采用三个训练/测试拆分进行评估。 HMDB51 数据集是来自各种来源的大量逼真视频,例如电影和网络视频。 该数据集由来自 51 个动作类别的 6、766 个视频片段组成。 我们的实验遵循使用三个训练/测试拆分的原始评估方案,并报告这些拆分的平均准确度。 我们使用小批量随机梯度下降算法学习网络参数,其中批量设置为256,动量设置为0.9。我们使用来自ImageNet[33]的预先训练的模型来初始化网络权重。我们在实验中设定了较小的学习速度。对于空间网络,学习速率被初始化为0.001,并且每2000次迭代减少到110。整个训练过程在4500次迭代中停止。对于时态网络,我们将学习率初始化为0.005,在12,000和18,000次迭代后,学习率降至110。最大迭代次数设置为20,000次。关于数据增强,我们使用位置抖动、水平翻转、角裁剪和比例抖动技术,如第3.2节所述。对于光流和翘曲光流的提取,我们选择了在OpenCV中用CUDA实现的TVL1光流算法[35]。为了加快培训速度,我们采用了具有多个GPU的数据并行策略,该策略使用我们的Caffe[36]和OpenMPI 2的修改版本来实现。在UCF101上,使用4个TITANX图形处理器,空间TSN的整个训练时间约为2小时,时间TSN约为9小时。

Exploration Study

在本节中,我们将重点调查第3.2节所述的良好做法,包括培训战略和投入方式。在这项探索性研究中,我们使用了改编自[23]的具有非常深结构的两流ConvNets,并在UCF101数据集的Split 1上进行了所有的实验。 我们在 3.2 节中提出了两种训练策略,即交叉模态预训练和部分 BN with dropout。 具体来说,我们比较了四种设置:(1)从头开始训练,(2)仅像[1]中那样预训练空间流,(3)使用交叉模态预训练,(4)交叉模态预训练和 带有 dropout 的部分 BN。 结果总结在表 1 中。首先,我们看到从头开始训练的性能比原来的两个流 ConvNets(基线)差得多,这意味着必须仔细设计学习策略以降低过度训练的风险。 拟合,特别是对于空间网络。 然后,我们借助空间流的预训练和时间流的跨模态预训练来帮助初始化双流 ConvNets,它获得了比基线更好的性能。 我们进一步利用带有 dropout 的部分 BN 来规范训练过程,从而将识别性能提高到 92.0%。 image.png 在第3.2节中,我们提出了两种新的模式:RGB差分法和翘曲光流场。表2报告了不同模式的性能比较结果。这些实验是在表1中验证的所有良好实践下进行的。我们首先观察到RGB图像和RGB差异的组合将识别性能提高到87.3%。这一结果表明,RGB图像和RGB差可能编码互补信息。结果表明,光流和翘曲光流的性能非常接近(87.2%比86.9%),而两者的融合可以将性能提高到87.8%。将四种模式结合起来,准确率达到91.7%。由于RGB差异可能描述相似但不稳定的运动模式,我们还评估了其他三种模式的组合的性能,这带来了更好的识别准确率(92.3%比91.7%)。我们推测,光流能够更好地捕捉运动信息,有时RGB差分在描述运动时可能不稳定。另一方面,RGB差可以作为运动表示的低质量、高速替代。 image.png

Evaluation of Temporal Segment Networks

在这一小节中,我们将重点研究时间段网络框架。我们首先研究了分段一致性函数的影响,然后比较了不同的ConvNet结构对UCF101数据集Split 1的影响。为了进行公平的比较,我们仅使用RGB图像和光流场作为输入模式。如3.1节所述,分段数K被设置为3。 在等式中。(1),分段一致性函数是由它的聚集函数g定义的。在这里,我们评估了三种候选:(1)最大汇集,(2)平均汇集,(3)加权平均,对于g的形式。实验结果总结在表3中。我们看到平均汇集函数取得了最好的性能。因此,在下面的实验中,我们选择平均池作为默认的聚合函数。然后我们比较了不同网络体系结构的性能,结果总结如表4。具体地说,我们比较了三种非常深入的体系结构:BN-初始[23]、GoogLeNet[10]和VGGNet-16[9],所有这些体系结构都接受了上述良好实践的训练。在比较的体系结构中,改编自BN-先启[23]的甚深两流ConvNets的准确率最高,达到92.0%。这与其在图像分类任务中的较好表现是一致的。因此,我们选择BN-Inception[23]作为时间段网络的ConvNet体系结构。 image.png image.png 在设置了所有设计选项后,我们现在将时间段网络(TSN)应用于动作识别。结果如表4所示。表5还给出了组件在识别精度方面的逐个组件分析。我们可以看到,即使应用了所有讨论的良好做法,时间分段网络也能够提高模型的性能。这证实了对长期时间结构进行建模对于更好地理解视频中的动作是至关重要的。它是由时间段网络实现的。 image.png

Comparison with the State of the Art

在探索了良好的实践和了解了时间段网络的效果之后,我们准备建立我们的最终动作识别方法。具体地说,我们组装了三个输入模态和所有描述为我们最终识别方法的技术,并在两个具有挑战性的数据集:HMDB51和UCF101上进行了测试。表6总结了我们的方法,其中我们比较了我们的方法与传统方法,例如改进轨迹(IDTS)[2]、MoFAP表示[39],以及深度学习表示,例如3D卷积网络(C3D)[13]、轨迹池深度卷积描述符(TDD)[5]、分解时空卷积网络(FSTCN)[28]、长期卷积网络(LTC)[19]和关键卷挖掘框架(KVMF)[41]。我们的最好结果在HMDB51数据集上比其他方法高3.9%,在UCF101数据集上高1.1%。我们的方法的优越性能证明了时间段网络的有效性,并证明了长期时间建模的重要性。 image.png

Model Visualization

除了识别精度,我们还希望进一步了解学习到的 ConvNet 模型。 从这个意义上说,我们采用了 DeepDraw [42] 工具箱。 该工具对只有白噪声的输入图像进行迭代梯度上升。 因此,经过多次迭代后的输出可以被视为仅基于 ConvNet 模型内部的类知识的类可视化。 该工具的原始版本仅处理 RGB 数据。 为了对基于光流的模型进行可视化,我们调整该工具以与我们的时间 ConvNets 一起工作。 因此,我们首次在动作识别 ConvNet 模型中可视化有趣的类信息。 我们从 UCF101 数据集中随机选择五个类别,太极拳、拳击、跳水、跳远和骑自行车进行可视化。 结果如图 3 所示。对于 RGB 和光流,我们可视化了通过以下三种设置学习的 ConvNet 模型:(1)没有预训练; (2) 仅经过预训练; (3) 与时间段网络。 image.png 一般来说,经过预训练的模型比没有经过预训练的模型更能表征视觉概念。人们可以看到,没有预先训练的空间和时间模型都几乎不能产生任何有意义的视觉结构。利用训练前过程中传递的知识,时空模型能够捕获结构化的视觉模式。 还很容易注意到,只用单帧等短期信息训练的模型往往会将视频中的场景模式和对象误认为动作识别的重要证据。比如,在《潜水》课上,单帧空间流ConvNet主要寻找水和潜水台,而不是潜水者。它的时间流对应研究光学流,倾向于关注地表水波动引起的运动。随着时间段网络引入的长期时间建模,学习的模型显然更关注视频中的人,似乎是在建模动作类的长期结构。还以“潜水”为例,时间分段网络的空间转换网生成了以人为主要视觉信息的图像。图像中可以识别不同的姿势,描绘了一个跳水动作的不同阶段。这表明用所提出的方法学习的模型可能会表现得更好,这在我们的定量实验中得到了很好的反映。我们建议读者参考更多动作类的可视化补充材料以及可视化过程的更多细节。

Conclusions

在本文中,我们提出了时间段网络(TSN),这是一个视频级的框架,旨在对长期的时间结构进行建模。正如在两个具有挑战性的数据集上所展示的那样,这项工作将最先进的技术带到了一个新的水平,同时保持了合理的计算成本。这在很大程度上归因于具有稀疏采样的分段体系结构,以及我们在本工作中探索的一系列良好实践。前者提供了一种获取长期时间结构的有效和高效的方法,而后者使在有限的训练集上训练非常深的网络成为可能,而不会出现严重的过拟合。