谷歌发布8亿参数的视觉语言AI模型ALIGN

谷歌研究院宣布开发了A Large-scale ImaGe and Noisy-Text Embedding(ALIGN),这是一个800M参数的预训练深度学习模型,在18B图像-文本对的嘈杂数据集上进行训练。该模型可用于多个任务,并在几个图像-文本检索基准上取得了最先进的准确度。

研究人员Chao Jia和Yinfei Yang在最近的一篇博文中对这项工作进行了概述。该团队从网络上摘取html页面,并使用与图像相关的alt-text标签来产生一个图像-文本对的数据集。ALIGN模型是BERT风格自然语言处理(NLP)编码器和EfficientNet风格计算机视觉(CV)编码器的组合,它在这个数据集上进行了预训练。其结果是一个可以将图像和文本映射到一个共享的潜在嵌入空间的模型。这种共享嵌入可用于若干图像-文本任务,包括图像-文本检索和图像分类。该模型还表现出 "图像数学 "的搜索特性。

image.png

训练大型深度学习人工智能模型需要大型数据集。虽然最近的NLP模型是在网络上搜取数据集上使用无监督学习进行预训练的,但大多数CV模型是在诸如ImageNetCOCO这样由人类工作者建立和注释的数据集上训练的。因此,这些数据集比用于训练GPT-3等模型的NLP数据集小得多;例如,COCO只包含33万张图片,而GPT-3是在近5万亿个单词上训练的。

2018年,谷歌研究人员发表了一篇论文,描述了概念性标题数据集,该数据集是通过从网页上刮取图片并使用alt-text标签来为图片创建注释而建立的。概念性标题包含了大约3M张图片,比COCO多一个数量级。由于alt-text数据是 "嘈杂的",谷歌创建了一个自动过滤管道来提高数据质量--这3张图片需要搜刮超过50亿张图片,拒绝率为99.94%。除了这个大型数据集,谷歌还发起了 "概念性标题"挑战,该挑战针对一个由大约12.5万个图像-文本对组成的测试集对模型进行评估。

在这项最新的研究中,谷歌团队省去了过滤步骤,只是简单地搜刮了近20亿个噪声图像-文本对比概念性标题大两个数量级。由此产生的数据集被用来训练ALIGN,一个基于两个编码器架构的深度学习模型,一个是用于文本数据的340M参数的BERT,一个是用于图像的480M参数的EfficientNet,使用对比损失作为组合模型的训练目标。该团队在Flickr30K和COCO的基准上评估了所产生的模型,使用了零点和微调的方案。与以前的工作相比,ALIGN在所有任务上都取得了新的最先进的准确性,"幅度很大"。该模型在ImageNet分类基准上也表现良好,在排行榜上名列第六。

其他几个组织最近也研究了视觉-语言组合模型。今年1月,OpenAI发布了CLIP模型,该模型也是在一个基于alt-text标签的数据集上训练的,包含4亿个图像-文本对。CLIP在许多用于评估ALIGN的基准上创造了之前的最先进记录,并在GitHub上进行了开源。4月,阿里巴巴公布了他们的M6模型,该模型是在一个由1.9TB的图像和292GB的文本组成的图像-文本数据集上训练的,也是从网络上摘取的。

谷歌团队将在即将举行的国际机器学习会议(ICML)上展示他们关于ALIGN的论文。

原文链接:Google Announces 800M Parameter Vision-Language AI Model ALIGN (infoq.com)

评论