本文已参与「新人创作礼」活动,一起开启掘金创作之路。
将生成字幕和机器翻译结合,提出PLuGS模型,运行时生成英文字幕加上x语言字幕
作者:Ashish V. Thapliyal and Radu Soricut
摘要
通过 data-hungry 模型的趋势与缺乏非英语注释的趋势相结合的跨英语语言,诸如图像描述等跨模态语言生成任务的能力直接受到支持。
我们调查潜在的解决方案,以便将现有语言生成注释与翻译功能组合起来,在域和语言覆盖范围内以Web级创建解决方案。我们描述了一种称为Pivot-Language Generation Stabilization (PLuGS)的方法,在训练时直接利用现有的英语字幕(黄金数据)及其机器翻译的版本(银色数据);在运行时,它会生成一个英文标题,然后生成一个相应的目标语言标题。我们展示了 PLuGS 优于评估中的其他候选解决方案,在大型测试集使用开源图像数据集中的图像,执行超过5种不同的目标语言。此外,我们发现了一个有趣的效果,PLuGS 模型产生的英文标题优于由原始 monolingual English 模型产生的标题更好。
介绍
鉴于非英语标记数据的稀缺性,数据匮乏的语言生成最先进的神经模型具有扩大英语和非英语之间的质量差距的可能性。一个值得注意的例外是机器翻译,其中大量来自双语或多语间注释的数据。但是,跨模型语言生成任务,例如自动图像标题,往往会被这一趋势直接伤害:现有数据集如Flickr(Young等,2014A),Mscoco(Lin等,2014)和概念标题(Sharma等,2018)对英语有广泛的标记数据,但标记数据是其他语言的稀缺(Elliott等,2016)(对于几种语言的2个数量级,而且没有休息)。
在本文中,我们进行了一个旨在回答以下问题的研究:给定一个大型注释的网格规模数据集,如概念标题(Sharma等,2018)用一种语言,以及基线机翻译系统,最佳在Web级以新语言扩展跨模型语言生成系统的方式?我们专注于我们对自动图像标题的任务的研究,作为跨模型语言生成的代表,其中前后一致性不能用直接的方式。在此框架中,我们继续测试几种可能的解决方案,如下所示:(a)利用现有的英语图像标题数据集培训生成英文标题的模型,然后将其转换为目标语言 x;我们称之为这种方法Train-Generate-Translate (TGT); (b)利用现有的英文标题数据集和翻译能力首先将数据转换为目标语言x,然后培训生成x -language字幕的模型;我们称这种方法Translate-Train-Generate(TTG); (c)通过直接使用中文金数据以及X语言(Silver Data)的翻译培训数据直接稳定 TTG 方法,以培训一个第一个生成英文标题的模型(在图像上调节),然后生成X -Language标题(在图像上调节和生成的英文标题)。
名词解释
多模态(multi-modal)
跨模态(cross-modal)
data-hungry:数据匮乏
state-of-the-art:最先进的